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“现代 语言 学 丛书 ”修订 说 明 


外 教 社 “ 现 代 语 言 学 丛书 ” 自 20 世 纪 80 年 代 面 世 以 来 ， 在 语言 学 界 产 
生 了 深远 的 影响 ， 深 受 国内 外 广大 读者 的 赞誉 。 这 套 从 书 的 作者 均 为 我 
国语 言 学 界 知 名 专家 和 学 者 ， 在 语言 学 教学 和 研究 领域 成 束 非 然 。 从 书 
深入 、 系 统 地 介绍 了 现代 语言 学 各 领域 的 基本 理论 、 研 究 方法 和 学 术 成 
果 ， 为 推动 我 国 的 语言 学 研究 和 外 语 教学 作出 了 积极 的 贡献 。 








随 大 语言 科学 的 不 断 及 展 ， 语 言 学 应 用 的 范围 也 越 加 宽泛 。 作 为 一 
门 迅速 发 展 的 学 科 ， 近 年 来 ， 现 代 语 言 学 在 研究 语言 结构 、 语 言 运用 、 
语言 的 社会 功能 和 历史 发 展 等 领域 ， 新 理论 、 新 方法 、 新 成 有 果 和 新 动 问 
层出不穷 ， 研 究 的 内 涵 逐 步 深 入 ， 外 延 也 不 断 拓 宽 ， 成 为 近 半 个 世纪 以 
来 发 展 最 快 、 变 化 最 大 的 人 文学 科 之 一 。 








为 使 国内 外 广大 读者 及 时 了 解 现代 语言 学 各 个 领域 的 最 新 发 展 态 
势 ， 外 教 社 对 “现代 语言 学 丛书 ”陆续 进行 修订 和 扩充 。 新 版 丛书 在 对 原 
有 的 学 术 精 华 进行 补充 和 完善 的 基础 上 上， 广泛 吸纳 近 20 年 来 国内 外 语言 
学 领域 的 最 新 研究 成 果 ， 融 “经 典 ? 与 “创新 ”为 一 体 ， 从 而 更 具有 学 术 
性 、 科 学 性 和 实用 性 。 


作为 开放 系列 从 书 ， 这 套 从 书 将 与 时 俱 进 ， 不 断 直 晤 学 科 内 容 ， 拓 
宽 研 究 领 域 ， 为 广大 读者 展现 现代 语言 学 的 各 项 前 沿 成 果 ， 从 而 更 有 力 
地 推动 这 一 学 科 的 建设 与 发 展 。 
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“现代 语言 学 从 书 ” 自 20 世 纪 80 年 代 陆 续 推 出 之 后 ， 在 业内 产生 了 深 
远 的 影响 。 该 套 从 书 的 编 委 会 委员 和 编写 者 均 为 学 界 知名 专家 学 者 ， 在 
语言 学 的 不 同 领域 取得 了 很 大 成 就 。 正 是 他 们 的 辛勤 努力 使 得 从 书 具备 
普及 与 提高 相 结 合 、 引 进 与 本 土 化 相 融 合 的 特色 ， 而 从 书 前 沿 性 的 学 术 
内 容 、 深 入 浅 出 的 理论 痔 释 、 科 学 规范 的 研 完 方 法 等 使 高 等 院 校 的 师 
生 、 外 事 外 贸 单 位 的 翻译 、 新 闻 出 版 界 的 编辑 等 语言 工作 者 和 学 习 者 受 
答 菲 浅 ， 得 到 他 们 广泛 的 认同 和 豆 爱 ， 为 推动 我 国语 言 学 的 研究 和 发 展 
作出 了 积极 的 贡献 。 




















近 20 年 来 ， 现 代 语 言 学 作为 发 展 最 快 的 学 科 之 一 ， 有 许多 新 发 现 和 
新 成 果 ， 需 要 进行 多 角度 、 多 层次 、 全 方位 的 研究 。 目 前 人 文科 学 、 社 
会 科学 和 目 然 科 学 等 的 渗透 使 得 语言 学 的 分 文 更 加 丰富 ， 出 现 了 越 来 越 
多 的 交叉 学 科 。 语 言 学 家 的 研究 视野 也 得 以 逐步 拓宽 ， 探 索 更 加 深入 ， 
研究 观念 不 断 更 新 ， 研 究 范式 更 加 多 样 化 。 为 了 更 加 充分 地 反映 这 一 发 
展 趋势 ， 及 时 向 广大 读者 反馈 语言 学 及 相关 学 科 的 最 狐 研究 成 果 ， 我 们 
在 征求 编 委 会 委员 、 广 大 教师 和 学 生意 见 的 基础 上 ， 对 “现代 语言 学 从 
书 ? 进 行 修订 ， 力 求全 方位 呈现 该 学 科 领 域 的 新 理论 、 新 观点 、 新 方 
法 、 新 结论 。 























该 从 书 修订 版 一 方面 保留 了 原版 编者 权威 、 内 容 全 面 、 编 辑 规范 的 
特点 ， 丸 一 方面 突出 “经 典 * 和 “新 突 ” 两 个 特色 ， 注 重 学 术 历 史 积淀 与 社 
会 发 展 的 毛 合 ， 使 丛书 更 加 具有 学 术 性 、 科 学 性 和 实用 性 。 这 和 套 丛 书 仍 
然 是 开放 的 ， 将 陆续 出 版 语言 学 及 相关 学 科 的 权威 研究 成 果 ， 以 促进 我 
国 的 语言 学 研究 的 学 科 建设 。 首 批 推出 的 系列 著作 涉及 语言 学 科 的 不 同 
层面 ， 涵 盖 学 科研 究 的 前 沿 内 容 和 最 新 成 果 ， 如 《语言 学 新 视角 》、 
《“ 人 本 语义 学 ”十 论 》、《 语 言 系 统 及 其 运作 》 【修订 本 ) 、《 现 代 语 
言 学 的 特点 和 发 展 趋 势 》【〔 修 订 本 ) 、《 比 较 词 源 研究 》 等 。 


作为 人 类 交流 的 工具 和 文化 的 载体 ， 语 言 的 重要 性 决定 了 语言 学 的 
重要 性 。 语 言 学 的 发 展 不 仅 受到 各 个 学 科 的 影响 ， 也 同时 影响 到 其 他 各 
学 科 的 发 展 。 只 有 充分 了 解 该 学 科 的 最 新 研究 态势 ， 切 实 关 注 语言 学 科 
的 发 展 ， 才 能 更 好 地 了 解 语 言 ， 运 用 语言 。 相 信 在 业内 专家 学 者 和 广大 
读者 的 文 持 下 , “现代 语言 学 丛书 ”修订 版 将 充分 发 挥 民 好 的 学 术 影 啊 ， 
为 语言 学 及 相关 学 科 的 进一步 及 展 作 出 更 大 页 献 。 
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为 什么 出 版 《现代 语言 学 从 书 》? 





因为 我 们 感到 ， 中 国 现代 化 包括 许多 方面 的 工作 ， 其 中 之 一 是 语言 
学 研究 的 现代 化 。 我 们 希望 这 一 套 从 书 的 出 版 ， 会 有 助 于 这 一 工作 的 开 
展 。 


近 几 十 年 来 ， 国 外 语言 学 的 研究 进展 很 快 。 一 方面 ， 关 于 语言 的 内 
部 结构 ， 出 现 了 各 种 理论 和 模式 ， 夯 一 方面 ， 从 各 种 不 同 的 学 科 去 研 完 
语言 ， 产 生 了 诸如 人 类 语言 学 、 社 会 语言 学 、 心 理 语言 学 、 神 经 语言 
学 、 计 算 语言 学 等 多 科 性 研究 。 了 解 和 介绍 这 两 方面 的 理论 、 模 式 、 实 
验 和 数据 ， 供 我 国语 言 研究 者 参考 ， 从 而 为 语言 学 研究 的 现代 化 出 一 扣 
力 ， 这 是 我 们 的 希望 。 





要 做 到 语言 学 研究 的 现代 化 是 不 容易 的 。 首 先 要 对 国外 新 的 语言 学 
理论 加 以 分 析 和 比较 ， 作 出 我 们 自己 的 判断 ， 更 重要 的 是 要 结合 汉语 的 
研究 加 以 验证 ， 写 出 结合 中 国 实际 的 论著 。 我 们 这 里 先 做 第 一 步 工作 。 





中 国语 言 学 史上 ， 不 乏 利 用 外 国 的 语言 理论 ， 为 汉语 研究 开辟 新 路 
的 例子 。 郑 梭 说 :“ 切 章 之 学 ， 起 上 自 西 域 。” 马 建 趾 以 拉丁 文法 为 范式 ， 
写 出 了 《 马 氏 文通 》。 赵 元 任 、 罗 利 培 等 前 非 先 生 运用 描写 语言 学 的 方 
法 ， 为 我 国 方言 调查 做 出 了 典范 。 近 时 汉语 语法 学 家 利用 国外 语言 学 的 
研究 方法 ， 使 语法 现象 的 分 类 和 范畴 的 描写 更 有 理据 ， 更 为 精确 。 先 行 
者 研究 外 国语 言 理论 的 态度 ， 永 远 是 值得 我 们 学 习 的 。 








作为 第 一 步 ， 我 们 打算 出 版 15 至 20 种 书 。 以 普及 为 主 ， 逐 步 提高 ， 
以 引进 为 主 ， a rea 我 们 希望 和 国内 语言 学 界 同志 
共同 努力 ， 填 补 我 国语 言 学 科 中 的 一 些 空白 点 。 














我 们 心目 中 的 读者 ， 是 高 等 学 校 中 文 、 外 文 和 其 他 文史 专业 的 师 
生 ， 翻 译 界 、 新 闻 出 版 界 人 士 ， 中 学 语文 教师 ， 以 及 一 般 语 文 工 作 者 和 
爱好 者 。 我 们 将 力求 用 明白 易 懂 的 语言 介绍 新 的 学 说 和 理论 。 





我 们 将 注意 国外 新 出 的 语言 学 文献 ， 为 中 国 的 语言 学 的 现代 化 尽快 
提供 信息 。 我 们 的 力量 还 很 薄弱 ， 我 们 要 努力 去 做 ， 并 热诚 希望 国内 语 
言 学 者 和 语文 工作 者 给 予 指导 、 批 评 和 文 持 。 





《现代 语言 ri 学 从 书 》 编 委 会 
1982 年 11 月 初稿 


1984 年 5 月 修改 稿 


BU zi 


自然 语言 处 理 (Natural Language Processing, (HfKNLPO ， 就 是 以 
电子 计算 机 为 工具 ， 对 人 类 特有 的 书面 形式 和 口头 形式 的 自然 语言 的 信 
恩 进 行 各 种 类 型 处 理 和 加 工 的 技术 。 这 项 技术 现在 已 经 形成 一 门 专门 的 
边缘 性 交叉 性 学 科 ， 它 涉及 语言 学 、 数 学 和 计算 机 科学 ， 横 路 文科 、 理 
科 和 工科 三 大 知识 领域 。 自 然 语言 处 理 的 目的 在 于 建立 各 种 自然 语言 处 
理 系 统 ， 如 机 器 翻译 系统 、 上 自然 语言 理解 系统 、 信 息 自动 检索 系统 、 信 
恩 自动 抽取 系统 、 文 本 信息 挖 抉 系统 、 术 语 数 据 库 系 统 、 计 算 机 辅助 教 
学 系统 、 语 首 自 动 识别 系统 、 语 首 自 动 合成 系统 、 文 字 自 动 识别 系统 


FY 
等 。 





























目 然 语 言 处 理 是 语言 文字 应 用 的 一 个 新 课题 ， 从 语言 学 的 观点 来 
看 ， 我 们 可 以 把 它 作 为 应 用 语言 学 的 一 个 分 文 。 





自然 语言 处 理 又 是 人 工 智 能 (Artificial Intelligent， 简 称 AI) 的 一 
个 主要 内 容 ， 它 是 电子 计算 机 模拟 人 类 智能 的 一 个 重要 方面 。 因 此 ， 自 
然 语言 处 理 还 是 研制 智能 化 的 电子 计算 机 的 一 项 基础 性 工作 。 目 前 ， 科 
学 技术 的 发 展 突飞猛进 ， 信 息 的 数量 与 日 俱 增 ， 电 子 计算 机 技术 得 到 越 
来 越 广泛 的 运用 。 世 界 性 的 互联 网 (World Wide Web， 简 称 WWW) 已 
经 联 成 ， 并 向 语义 互联 网 (semantic web) 这 个 更 高 的 、 更 加 智能 化 的 
方向 发 展 。 智 能 化 的 电子 计算 机 和 智能 化 的 互联 网 已 经 不 是 虚无 绿 弛 的 
幻想 ， 而 是 指日可待 的 现实 。 当 前 ， 美 国 、 英 国 、 日 本 等 发 达 国 家 ， 都 
投入 大 量 的 人 力 、 物 力 和 财力 ， 把 智能 化 电子 计算 机 和 智能 化 互联 网 的 

















研制 放 在 十 分 突出 的 地 位 ， 这 对 于 人 类 社会 将 产生 不 可 估量 的 影响 。 它 
同人 类 历史 上 语言 的 出 现 、 文 字 的 创造 、 造 纸 技术 的 发 明 以 及 印刷 技术 
的 发 明 一 样 ， 将 成 为 人 类 文明 史上 的 又 一 件 大 事 。 


目 然 语 言 是 人 类 区 别 于 其 他 动物 的 重要 标志 之 一 。 人 借助 于 目 然 语 
言 交流 思想 ， 互 相 了 解 ， 组 成 社会 ， 人 还 借助 自然 语言 进行 思维 活动 ， 
认识 事物 的 本 质 和 规律 ， 创 造 了 人 类 的 物质 文明 和 精神 文明 。 











自然 语言 是 人 脑 的 高 级 功能 之 一 。 心 理学 研究 表明 ， 人 脑 的 语言 功 
能 具有 一 侧 化 的 性 质 ， 它 主要 定位 在 大 脑 左 半球 ， 由 大 脑 左 半球 所 控 
制 。 因 此 ， 目 然 语 言 是 人 类 特有 的 一 种 最 重要 的 智能 ， 智 能 化 电子 计算 
机 和 智能 化 互联 网 的 研究 离 不 开 自 然 语 言 处 理 ， 目 然 语 言 处 理 的 研究 水 
平 ， 在 智能 化 计算 机 和 智能 化 互联 网 的 研制 中 ， 起 着 举 足 轻 重 的 作用 。 
我 们 中 国 的 自然 语言 处 理工 作者 ， 应 该 站 在 电子 计算 机 和 互联 网 的 智能 
化 这 样 的 高 度 ， 以 战略 的 眼光 来 看 竺 自然 语言 处 理 技术 的 研究 ， 把 我 国 
的 目 然 语言 处 理 提 高 到 一 个 新 的 水 平 。 




















在 计算 机 软件 中 ， 早 已 设计 了 许多 人 工 语言 ， 如 BASIC、 
PASCAL、COBOL、PROLOG、LISP 等 程序 设计 语言 ， 这 些 人 工 语言 
与 自然 语言 一 样 ， 都 遵循 着 形式 语言 的 规律 和 法 则 。 美 国语 言 学 家 乔 姆 
斯 基 CN. Chomsky) 的 形式 语言 理论 ， 既 适用 于 人 工 语言 ， 也 适用 于 上 自 
然 语 言 ， 这 有 力 地 说 明 ， 自 然 语言 与 人 工 语言 之 间 ， 在 形式 描述 方面 ， 
确实 存在 着 某 些 共同 的 性 质 。 正 如 美国 著名 的 逻辑 学 家 绽 塔 古 (R. H. 
Montague) 在 《英语 作为 一 种 形式 语言 》 一 文中 所 说 的 : “我 并 不 认为 
形式 语言 和 自然 语言 在 理论 上 存在 着 重要 的 区 别 。” 














但 是 ， 自 然 语言 毕竟 是 人 类 历史 长 期 发 展 而 约定 俗 成 的 产物 ， 它 带 
着 几 干 年 人 类 历史 的 痕迹 ， 比 人 工 语言 要 复杂 得 多 ， 因 而 用 计算 机 处 理 

















起 来 也 束 困 难得 多 。 


目 然 语 言 起 码 在 下 面 四 个 方面 与 人 工 语言 大 相 径 性 : 





(1) 目 然 语言 中 充满 痢 坚 义 ， 而 人 工 语言 中 的 蚊 义 则 是 可 以 控制 
的 ; 


(2) 目 然 语言 的 结构 复杂 多 样 ， 而 人 工 语言 的 结构 则 相对 简单 ; 














(3) 目 然 语言 的 语义 表达 千变万化 ， 迄 今 还 没有 一 种 简单 而 通用 
的 途径 来 描述 它 ， 而 人 工 语 言 的 语义 则 可 以 由 人 来 直接 定义 ; 





(4) 目 然 语言 的 结构 和 语义 之 间 有 着 千 丝 万 缕 的 、 错 综 复杂 的 联 
系 ， 一 般 不 存在 一 一 对 应 的 同 构 关 系 ， 而 人 工 语言 则 常 第 可 以 把 结构 和 
语义 分 别 进行 处 理 ， 人 工 语 言 的 结构 和 语义 之 间 有 者 整齐 的 一 一 对 应 的 
同 构 关系 。 











目 然 语言 的 这 些 独特 性 质 ， 使 得 自然 语言 处 理 成 为 人 工 智能 领域 的 
一 大 难题 。 目 然 语 言 处 理 的 种 种 难题 第 常 使 研究 者 们 陷入 困境 ， 一 筹 英 
展 。 然 而 ， 这 些 困 难 却 吸 引 了 一 大 批 敢 于 迎 难 而 上 的 、 军 无 长 惧 的 探索 
者 。 他 们 以 克服 困难 为 末 ， 每 当 他 们 有 所 前 进 的 时 候 ， 束 会 产生 “ 山 重 
水 复 疑 无 路 ， 柳 暗 花 明 又 一 村 ”的 清新 之 感 ， 体 会 到 胜利 者 的 欢乐 。 有 
志 于 目 然 语言 处 理 的 探索 者 束 像 科学 战线 上 的 侦察 兵 ， 对 于 侦察 兵 来 
说 ， 没 有 道路 的 路 ， 才 是 最 好 的 路 。 自 然 语 言 处 理 有 如 一 条 充满 艰险 的 
荆 坏 之 路 ， 一 旦 被 勇于 探索 的 侦 硅 兵 开 通 了 ， 束 成 了 一 条 坦途 。 正 是 出 
于 这 种 对 未 来 的 坚强 信念 ， 从 20 世 纪 50 年 代 以 来 ， 国 内 外 学 者 在 这 个 新 
的 学 科 领 域 进行 了 不 屈 不 挠 的 探索 ， 历 时 50 余 年 ， 现 在 已 经 取得 了 可 豆 
的 成 绩 。 




















自然 语言 处 理 有 时 也 叫做 * 计 算 语言 学 ”(Computational 
Linguistics) 。 本 书 着 重 讲 自 然 语 言 处 理 的 方法 ， 当 涉及 自然 语言 处 理 
的 基本 理论 的 时 候 ， 我 们 才 使 用 计算 语言 学 这 个 术语 ， 也 就 是 说 ， 自 然 
语言 处 理 这 个 术语 主要 用 于 说 明 方法 ， 计 算 语 言 学 这 个 术语 主要 用 于 说 
明理 论 。 两 者 各 有 分 工 ， 以 体现 它们 各 自 的 特点 。 





























我 曾 于 1979 年 一 1981 年 在 法 国 格 勒 诺 布尔 大 学 (Université de 
Grenoble) 自动 翻译 中 心 (GETA) 学 习 ， 师 从 当时 的 国际 计算 语言 学 
委员 会 主席 沃 古 瓦 (B.  Vauquois) 教授 ， 进 行 汉 外 多 语言 机 器 翻译 试 
验 ， 研 制 了 世界 上 第 一 个 汉语 到 多 种 外 语 的 机 器 翻译 系统 FAJRA。1986 
4F—19884F 3, X. J| RFD FE Es] OTS AR VIE Ft Do fei ed DUNS 53 288 URS ZEIT 7G 
所 担任 客座 研究 员 ， 进 行 了 术语 数据 库 的 开发 研究 ， 研 制 了 世界 上 第 一 
个 中 文 术语 数据 库 GLOT-C， 在 20 世 纪 80 年 代 汉 字 输 入 输出 技术 尚未 成 
熟 的 情况 下 ， 我 在 德国 孤军 奋战 ， 使 用 Unix 操 作 系 统 和 Ingres 关 系数 据 
库 ， 分 别 做 出 了 “数据 处 理 * 中 文 术语 的 简体 字 、 繁 体 字 和 竖 排 索引 ， 并 
用 上 下 文 无 关 语 法 ， 对 于 中 文 术语 的 结构 进行 了 自动 分 析 。1990 年 一 
1993 年 我 在 联邦 德国 特 里 尔 大 学 担任 客座 教授 ， 讲 授 中 文 信息 处 理 和 机 
器 翻译 等 课程 。 在 前 后 几 次 出 国 期 间 ， 我 有 机 会 直接 阅读 到 国外 自然 语 
言 处 理 研究 的 最 新 文献 ， 亲 上 自 了 解 到 国外 这 个 领域 的 最 新 成 果 ， 分 别 拜 
访 了 好 几 位 国外 在 这 个 领域 中 齐 有 建树 的 专家 学 者 ， 这 使 我 对 于 自然 语 
言 处 理 有 了 更 深 的 认识 ， 耳 目 为 之 一 新 。1994 年 9 月 ， 我 写成 了 《自然 
语言 的 计算 机 处 理 》 一 书 ， 由 北京 外 国语 大 学 许 国 璋 教授 和 中 山大 学 王 
宗 炎 教授 推荐 给 上 海外 语 教育 出 版 社 ， 于 1996 年 10 月 出 版 。 在 这 本 书 
中 ， 我 力图 把 在 国外 学 习 和 研究 的 所 得 反映 出 来 ， 在 写法 上 以 及 章节 的 
安排 上 ， 受 到 了 国外 有 关 自 然 语 言 处 理 著 作 的 司 发 和 影响 。 此 书 出 版 后 
受到 广大 读者 的 欢迎 ， 由 于 印 数 很 少 ， 很 快 就 销售 一 空 ， 市 场 上 早已 买 
不 到 此 书 了 。 





























1996 年 《自然 语言 的 计算 机 处 理 》 一 书 出 版 以 来 ， 自 然 语 言 处 理 日 
新 月 异地 发 展 ， 不 论 在 理论 还 是 在 技术 上 ， 都 有 了 重要 的 发 展 。 由 于 互 
联网 (Web) 的 普及 ， 自 然 语言 的 计算 机 处 理 成 为 了 从 互联 网 上 获取 知 
识 的 重要 手段 ， 生 活 在 信息 网 络 时 代 的 现代 人 ， 几 乎 都 要 与 互联 网 打 交 
道 ， 或 多 或 少 ， 都 要 借助 自然 语言 处 理 的 研究 成 果 来 获取 或 挖掘 广阔 无 
边 的 互联 网 上 的 各 种 知识 和 信息 。 因 此 ， 世 界 各 国都 非常 重视 目 然 语言 
处 理 的 研究 ， 在 其 中 投入 了 大 量 的 人 力 、 物 力 和 财力 。 























当前 自然 语言 处 理 的 发 展 表现 在 下 面 五 个 方面 : 








第 一 ， 基 于 句法 一 语义 规则 的 理性 主义 方法 受到 质疑 ， 随 着 语料库 建 
设 和 语料库 语言 学 的 峰 起 ， 大 规模 真实 文本 的 处 理 成 为 自然 语言 处 理 
的 主要 战略 目标 ， 概 率 和 数据 驱动 的 方法 几乎 成 为 了 自然 语言 处 理 的 
标准 方法 。 











在 过 去 的 40 多 年 中 ， 从 事 上 自然 语 言 处 理 系统 开发 的 绝 大 多 数学 者 ， 
基本 上 都 采用 基于 规则 的 理性 主义 方法 ， 这 种 方法 的 哲学 基础 是 逻辑 实 
证 主义 ， 他 们 认为 ， 智 能 的 基本 单位 是 符号 ， 认 知 过 程 就 是 在 符号 的 表 
征 下 进行 符号 运算 ， 因 此 ， 思 维 就 是 符号 运算 。 








著名 语言 学 家 弗 托 (J. A. Fodor) 在 Representations 一 书 中 说 : “A 
要 我 们 认为 心理 过 程 是 计算 过 程 〈 因 此 是 由 表征 式 定 义 的 形式 操作 ) ， 
那么 ， 除 了 将 心灵 看 作 别 的 之 外 ， 还 自然 会 把 它 看 作 一 种 计算 机 。 也 就 
是 说 ， 我 们 会 认为 ， 假 设 的 计算 过 程 包含 哪些 符号 操作 ， 心 灵 也 就 进行 
哪些 符号 操作 。 因 此 ， 我 们 可 以 大 致 上 上 认为， 心理 操作 跟 图 灵机 的 操作 
十 分 类 似 。” 钙 弗 托 的 这 种 说 法 代表 了 自然 语言 处 理 中 的 基于 规则 CRF 
号 操作 ) 的 理性 主义 观点 。 








这 样 的 观点 受到 了 学 者 们 的 批评 。 塞 尔 (J. R. Searle) 在 他 的 论文 
《心智 、 大 脑 与 程序 》 (Minds, Brains and Programmes) 四 中， 提出 了 
所 谓 “ 中 文 屋子 ”的 质疑 。 他 提出 ， 假 设 有 一 个 懂得 英文 但 是 不 懂 中 文 的 
人 被 关 在 一 个 屋子 中 ， 在 他 面前 是 一 组 用 英文 写 的 指令 ， 说 明 英 文人 符号 
和 中 文 符号 之 则 的 对 应 和 操作 关系 。 这 个 人 要 回答 用 中 文书 写 的 几 个 问 
题 ， 为 此 ， 他 首先 要 根据 指令 规则 来 操作 问题 中 出 现 的 中 文 符号 ， 理 解 
问题 的 含义 ， 然 后 再 使 用 指令 规则 把 他 的 答案 用 中 文 一 个 一 个 地 写 出 
来 。 比 如 ， 对 于 中 文书 写 的 问题 Q1 用 中 文 写 出 答案 A1， 对 于 中 文书 写 
的 问题 Q2 用 中 文 写 出 答案 A2， 如 此 等 等 。 这 显然 是 非常 困难 的 ， 是 几 
乎 不 能 实现 的 事情 。 而 且 ， 即 使 这 个 人 能 够 这 样 做 ， 也 不 能 证 明 他 理解 
了 中 文 ， 只 能 说 明 他 善于 根据 规则 做 机 械 的 操作 而 已 。 窜 尔 的 批评 使 基 
于 规则 的 理性 主义 的 观点 受到 了 普遍 的 怀疑 。 

















理性 主义 方法 的 男 一 个 弱点 是 在 实践 方面 的 。 自 然 语言 处 理 的 理性 
主义 者 把 自己 的 目的 局 限于 某 个 十 分 狭 罕 的 专业 领域 之 中 ， 他 们 采用 的 
主流 技术 是 基于 规则 的 句法 一 语义 分 机， 尽管 这 些 应 用 系统 在 某 些 受 限 
的 “ 子 语言 ”(sub-language) 中 也 曾经 获得 一 定 程 度 的 成 功 ， 但 是 ， 要 
想 进 一 步 扩 大 这 些 系 统 的 窗 盖 面 ， 用 它们 来 处 理 大 规模 的 真实 文本 ， 仍 
然 有 很 大 的 困难 。 因 为 从 自然 语言 系统 所 需要 装备 的 语言 知识 来 看 ， 其 
数量 之 浩大 和 颗粒 上 度 之 精细 ， 都 是 以 往 的 任何 系统 所 远 远 不 及 的 。 而 
且 ， 随 着 系 统 拥有 的 知识 在 数量 上 和 程度 上 发 生 的 巨大 变化 ， 系 统 在 如 
何 获取 、 表 示 和 管理 知识 等 基本 问题 上 ， 不 得 不 另辟蹊径 。 这 样 ， 在 自 
然 语言 处 理 研究 中 就 提出 了 大 规模 真实 文本 (large-scale and authentic 
text) 的 处 理 问 题 。1990 年 8 月 在 分 兰 赫 尔 注 基 举 行 的 第 13 届 国际 自然 语 
言 处 理会 议 〈 即 COLING'90) 为 会 前 讲座 确定 的 主题 是 : “处 理 大 规模 
真实 文本 的 理论 、 方 法 和 工具 ”， 这 说 明 ， 实 现 大 规模 真实 文本 的 处 理 
己 经 成 为 自然 语言 处 理 在 今后 一 个 相当 长 的 时 期 内 的 战略 目标 。 为 了 实 























现 战 略 目标 的 转移 ， 需 要 在 理论 、 方 法 和 工具 等 方面 实行 重大 的 革新 。 
1992 年 6 月 在 加 拿 大 蒙特 利 尔 举行 的 第 四 届 机 器 翻译 的 理论 与 方法 国际 
会 议 〈 即 TMI-'92) 上 ， 宣 布 会议 的 主题 是 “机 器 翻译 中 的 经 验 主 义 和 理 
性 主义 的 方法 ”。 所 谓 “ 理 性 主义 ”， 就 是 指 以 生成 语言 学 为 基础 的 方 
法 ， 所 谓 “ 经 验 主义 ”， 就 是 指 以 大 规模 语料库 的 分 析 为 基础 的 方法 。 从 
中 可 以 看 出 当前 自然 语言 处 理 关 注 的 焦点 。 当 前 语料库 的 建设 和 语料库 
语言 学 〈corpus linguistics) 的 崛起 ， 正 是 自然 语言 处 理 战 略 目标 转 移 的 
一 个 重要 标志 。 随 着 人 们 对 大 规模 真实 文本 处 理 的 日 葵 关 注 ， 越 来 越 多 
的 学 者 认识 到 ， 基 于 语料库 的 分 析 方 法 〔( 即 经 验 主义 的 方法 ) 至 少 是 对 
基于 规则 的 分 析 方 法 ( 即 理性 主义 的 方法 ) 的 一 个 重要 补充 。 因 为 

从 “大 规模 "和 “真实 ”这 两 个 因素 来 考察 ， 语 料 库 才 是 最 理想 的 语言 知识 
资源 。 

















目前 ， 基 于 大 规模 真实 语料库 的 概率 和 数据 驱动 的 方法 几乎 成 为 了 
目 然 语 言 处 理 的 标准 方法 。 句 法 谢 析 、 词 类 标注 、 参 照 消 解 、 话 语 分 
析 、 机 器 翻译 的 技术 全 都 开始 引入 概率 ， 并 且 采 用 从 语 首 识别 和 信息 检 
索 中 借 过 来 的 基于 概率 和 数据 驱动 的 评测 方法 。 








这 种 概率 和 数据 驱动 的 方法 影响 到 了 语言 材料 的 搜集 、 整 理 和 加 
工 ， 促 进 了 语言 学 研究 方法 的 变革 。 理 论语 言 学 的 研究 必须 以 语言 事实 
作为 根据 ， 必 须 详 尽 地 、 大 量 地 占有 材料 ， 才 有 可 能 在 理论 上 得 出 比较 
可 靠 的 结论 。 传 统 的 语言 材料 的 搜集 、 整 理 和 加 工 完全 是 手工 进行 的 ， 
这 和 古 一 种 枯燥 无 味 、 寓 力 费 时 的 工作 。 计 算 机 出 现 后 ， 人 们 可 以 把 这 些 
工作 交 给 计算 机 去 作 ， 这 大 大 地 减轻 了 人 们 的 元 动 。 后 来 ， 在 这 种 工作 
中 逐渐 创造 了 一 整套 完整 的 理论 和 方法 ， 形 成 了 语料库 语言 学 ， 并 成 为 
了 自然 语言 处 理 的 一 个 分 支 学 科 。 语 料 库 语言 学 主要 研究 机 器 可 读 自 然 
语言 文本 的 采集 、 和 存储 、 检 索 、 统 计 、 语 法 标注 、 句 法 语义 分 析 ， 以 及 














共有 上 述 功能 的 语料库 在 语言 定量 分 析 、 词 典 编 千 、 作 品 风 格 分 析 、 目 
然 语 言 理解 和 机 器 翻译 等 领域 中 的 应 用 。 





第 二 ， 目 然 语言 处 理 中 越 来 越 多 地 使 用 机 器 目 动 学 习 的 方法 来 获取 语 


言 知 识 。 





目 然 语 言 中 处 理 中 的 经 验 主义 倾 问 始 于 20 世 纪 90 年 代 ， 在 21 世 纪 它 
更 以 惊人 的 步伐 同 前 推进 。 这 样 的 加 速 发 展 在 很 大 的 程度 上 受到 下 面 三 
种 彼此 协同 的 趋势 的 推动 。 


第 一 个 趋势 是 建立 市 标记 语料库 的 趋势 。 在 语言 数据 联盟 

(Linguistic Data Consortium， 简 称 LDC〉 和 其 他 相关 机 构 的 帮助 下 ， 研 
究 者 们 可 以 获得 口语 和 书面 语 的 大 规模 的 语 料 。 重 要 的 是 ， 在 这 些 语 料 
中 还 包括 一 些 标注 过 的 语 料 ， 如 宾 州 树 库 CPenn Treebank) 、 布 拉 格 依 
存 树 库 (Prague Dependency Tree Bank) 、 宾 州 命题 语料库 
(PropBank) ， 宾 州 话语 树 库 (Penn Discourse Treebank) 、 修 辞 结构 
JÆ CRST-Bank) 和 TimeBank。 这 些 语料库 是 带 有 句法、 语义 和 语 用 等 
不 同 层 次 的 标记 的 标准 文本 语言 资源 。 这 些 语 言 资 源 的 存在 大 大 地 推动 
了 人 们 使 用 有 监督 的 机 器 学 习 方 法 来 处 理 那些 在 传统 上 非常 复杂 的 自动 
副 析 和 上 自动 语义 分 析 等 问题 。 这 些 语言 资源 也 推动 了 有 竞争 性 的 评测 机 
制 的 建立 ， 评 测 的 范围 涉及 到 自动 剖析 、 信 息 抽 取 、 词 义 排 上 层 、 问 答 系 
统 、 自 动 文摘 等 领域 。 





第 二 个 趋势 是 统计 机 器 学 习 的 趋势 。 对 于 机 器 学 习 的 日 益 增 长 的 重 
视 ， 导 致 了 学 者 们 与 统计 机 器 学 习 的 研究 者 更 加 频 莹 地 交互 ， 彼 此 之 间 
互相 有 影响。 对 于 支持 问 量 机 技术 、 最 大 业 拉 术 以 及 与 它们 在 形式 上 等 价 
的 多 项 逻辑 回归 、 图 式 贝 叶 斯 模型 等 拷 术 的 研究 ， 都 成 为 了 目 然 语言 处 
理 的 标准 研究 实践 活动 。 














第 三 个 趋势 是 高 性 能 计算 机 系统 发 展 的 趋势 。 高 性 能 计算 机 系统 的 
广泛 应 用 ， 为 机 器 学 习 系 统 的 大 规模 训练 和 效能 发 挥 提 供 了 有 利 的 条 
件 ， 而 这 些 在 20 世 纪 是 难以 想象 的 。 


最 后 应 当 指 出 ， 在 20 世 纪 90 年 代 末 期 ， 大 规模 的 无 监督 统计 学 习 方 
法 得 到 了 重新 关注 。 机 器 翻译 和 主题 模拟 等 领域 中 统计 方法 的 进步 ， 说 
明了 也 可 以 只 训练 完全 没有 标注 过 的 数据 来 构建 机 器 学 习 系 统 ， 这 样 的 
系统 也 可 以 得 到 有 效 的 应 用 。 由 于 建造 可 靠 的 标注 语料库 要 花费 很 高 的 
成 本 ， 建 造 的 难度 很 大 ， 在 很 多 问题 中 ， 这 成 为 了 使 用 有 监督 的 机 器 学 
习 方 法 的 一 个 限制 性 因素 。 因 此 ， 这 个 趋势 的 进一步 发 展 ， 将 使 我 们 更 
多 地 使 用 无 监督 的 机 器 学 习 (unsupervised machine learning) 技术 。 

















传统 语言 学 基本 上 是 通过 语言 学 家 上 自行 归纳 总 结语 言 现 象 的 手工 方 
法 来 获取 语言 知识 的 ， 由 于 人 的 记忆 力 有 限 ， 任 何 语言 学 家 ， 哪 怕 是 语 
言 学 界 的 权威 泰斗 ， 都 不 可 能 记忆 和 处 理 浩如烟海 的 全 部 的 语言 数据 ， 
因此 ， 使 用 传统 的 手工 方法 来 获取 语言 知识 ， 犹 如 以 管 颖 豹 ， 以 柬 训 
海 ， 这 种 获取 语言 知识 的 方法 不 仅 效率 极 低 ， 而 且 带 有 很 大 的 主观 性 。 

















由 于 自然 语言 现象 充满 了 例外 ， 治 学 严谨 的 传统 语言 学 家 们 提出 
了 *“ 例 不 十 ， 不 立法 ”( 黎 锦 申 ，1924) B 和 “例外 不 十 ， 法 不 破 ”( 王 
力 ，1988) E 的 原则 。 这 样 的 原则 貌似 严格 ， 实 际 上 却 是 片面 的 。 在 
成 千 上 万 的 语言 数据 中 ， 只 是 靠 十 个 例子 或 十 个 例外 就 来 决定 规则 的 取 
舍 ， 难 道真 的 能 够 保证 万 无 一 失 吗 ?显然 是 不 能 的 。 因 此 ，“ 例 不 十 ， 
不 立法 ”; “例外 不 十 ， 法 不 破 ” 的 原则 只 是 一 个 貌似 严格 的 原则 ， 实 际 
上 很 不 严格 。 











当前 的 自然 语言 处 理 研 究 提倡 建立 语料库 ， 使 用 机 器 学 习 的 方法 ， 
让 计算 机 目 动 地 从 浩如烟海 的 语料库 中 获取 准确 的 语言 知识 。 机 器 词典 





和 大 规模 语料库 的 建设 ， 成 为 了 当前 上 自然 语言 处 理 的 热点 。 这 是 语言 学 
获取 语言 知识 方式 的 巨大 变化 ， 作 为 21 世 纪 的 语言 学 工作 者 ， 我 们 都 应 
该 注意 到 这 样 的 变化 ， 并 逐渐 改变 获取 语言 知识 的 手段 。 














使 用 这 种 机 器 学 习 方 法 开发 出 来 的 基于 语料库 的 目 动 分 析 软 件 是 独 
立 于 具体 语言 的 。 只 要 有 训练 语料库 ， 即 使 研究 者 不 民有 关 的 语言 ， 仍 
然 可 以 使 用 自动 分 析 软 件 得 出 不 错 的 分 析 结 果 。 这 样 的 机 器 学 习 方 法 达 
到 的 分 析 精 度 已经 可 以 与 基于 规则 的 方法 达到 的 精度 相 妮 美 。 这 是 在 语 
言 学 历史 上 获取 语言 学 知识 方法 的 革命 性 变 草 ， 每 一 个 语言 学 工作 者 都 
应 当 敏 氏 地 认识 到 这 样 的 变 章 ， 改 变 陈旧 的 、 传 统 的 知识 获取 方法 ， 采 
用 新 宗 的 、 现 代 的 知识 获取 方法 。 





第 三 ， 统 计数 学 方法 越 来 越 受 到 重视 。 


目 然 语言 处 理 中 越 来 越 多 地 使 用 统计 数学 方法 来 分 析 语 言 数据 ， 使 
用 人 工 观察 和 内 省 的 方法 ， 显 然 不 可 能 从 浩如烟海 的 语料库 中 获取 精确 
可 靠 的 语言 知识 ， 必 须 使 用 统计 数学 的 方法 。 





语言 模型 是 描述 自然 语言 内 在 规律 的 数学 模型 ， 构 造 语 言 模 型 是 目 
然 语言 处 理 的 核心 。 语 言 模 型 可 以 分 为 传统 的 规则 型 语言 模型 和 基于 统 
计 的 语言 模型 。 规 则 型 语言 模型 是 人 工 编制 的 语言 规则 ， 这 些 语言 规则 
主要 来 自 语言 学 家 掌握 的 语言 学 知识 ， 具 有 一 定 的 主观 性 和 片面 性 ， 难 
以 处 理 大 规模 的 真实 文本 。 基 于 统计 的 语言 模型 通常 是 概率 模型 ， 计 算 
机 借助 于 语言 统计 模型 的 概率 参数 ， 可 以 估计 出 自然 语言 中 语言 成 分 出 
现 的 可 能 性 ， 而 不 是 单纯 地 判断 这 样 的 语言 成 分 是 否 符 合 语言 学 规则 ， 
这 种 概率 性 的 语言 统计 模型 显然 比 规则 型 语言 模型 更 加 客观 和 全 面 。 


























目前 ， 目 然 语 言 处 理 中 的 语言 统计 模型 已 经 相当 成 熟 ， 例 如 ， 隐 号 





尔 可 夫 模 型 (Hidden Markov Model， 简 称 HMM) 、 概 率 上 下 文 无 关 语 
iX (Probabilistic Context-Free Grammar， 简 称 PCFG) 、 基 于 决策 树 的 语 
言 模 型 (Decision-Tree Based Model) . EKRE RIRA (Maximum 
Entropy Model) 、 支 持 同 量 机 (Support Vector Machine， 简 称 SVM) 、 
条 件 随机 场 (Condition Random Field， 简 称 CRF) 等 。 研 究 这 样 的 语言 
统计 模型 需要 有 具备 统计 数学 的 知识 ， 因 此 ， 我 们 应 当 努 力 进行 知识 更 
新 ， 学 习 统 计数 学 。 如 果 我 们 认真 地 学 会 了 统计 数学 ， 熟 练 地 掌握 了 统 
计数 学 ， 就 会 使 我 们 在 获取 语言 知识 的 过 程 中 如 虎 添 嗓 。 








第 四 ， 上 自然 语言 处 理 中 越 来 越 重视 词汇 的 作用 ， 出 现 了 强烈 的 “词汇 主 
义 ” 的 倾 问 。 





弗 斯 语言 学 (Firthian linguistics) 认为 ， 词 汇 是 语言 描述 的 中 心 。 
1957 年 ， 弗 斯 (Firth) 首先 提出 了 搭配 和 类 连接 理论 ， 将 词汇 内 容 从 语 
法 和 语义 学 中 分 离 出 来 。 后 来 ， 新 弗 斯 学 者 坚持 以 词汇 研究 为 中 心 ， 强 
调 词汇 与 语法 的 辩证 关系 ， 深 入 发 展 了 弗 斯 的 词汇 理论 。 韩 礼 德 
(Halliday) 提出 词汇 不 是 用 来 填充 语法 确定 的 一 套 空位 Cslots) ， 而 
是 一 个 独立 的 语言 学 层面 ， 词 汇 研 究 可 以 作为 对 语法 理论 的 补 序 ， 却 不 


是 语法 理论 的 一 部 分 。 





近 些 年 来 ， 语 料 库 证 据 文 持 的 词汇 学 研究 于 劲 发 展 。 越 来 越 多 的 实 
证 研究 表明 ， 词 汇 和 语法 在 语言 中 是 交织 在 一 起 的 ， 必 须 整 合 起 来 进行 
描述 。 词 汇 是 话语 实现 的 主要 载体 ， 语 法 的 作用 仅仅 是 管理 意义 、 组 合 
成 份 和 构筑 词 项 。 








在 乔 姆 斯 基 提 出 的 “最 简 方 案 ”(Program Minimalism) 中 ， 所 有 重 
要 的 语法 原则 直接 运用 于 表层 ， 把 具体 的 规则 减少 到 最 低 限 度 ， 不 同 语 
言 之 间 的 差异 由 词汇 来 处 理 ， 也 非常 重视 词汇 的 作用 。1999 年 ， 史 密斯 








(N. Smith) fEChomsky: Ideas and Ideals 一 书 中 甚至 认为 , “词汇 是 语言 
间 所 有 差异 的 湾 在 所 在 。 排 除 词汇 差异 这 一 因素 ， 人 类 的 语言 只 有 一 
jp. ” DI 





Püigis n ramos EA, mu fic sp 2L. 3- 


X Cexicalism) 。 





这 种 词汇 主义 的 倾 癌 也 影响 到 目 然 语言 处 理 。 





目 然 语 言 中 充满 了 歧义 ， 目 然 语言 处 理 的 学 者 们 注意 到 ， 上 时 义 问题 
的 解决 不 仅 与 概率 和 结构 有 关 ， 还 往往 与 词汇 的 特性 有 关 ; 英语 中 的 介 
词 短语 附 独 问题 〈 又 叫做 “PP 附着 问题 "和 并 列 结构 歧义 问题 ， 都 必须 
依靠 词汇 知识 才能 解决 。 事 实证 明 ， 尽 管 在 自然 语言 处 理 中 使 用 数学 ， 
使 用 概率 的 方法 ， 在 遇 到 词汇 依存 问题 的 时 候 往往 显得 捉襟见肘 、 无 能 
为 力 ， 我 们 还 需要 探索 其 他 的 途径 来 进一步 提升 概率 语法 的 功能 ， 其 中 
的 一 个 有 效 的 途径 ， 束 是 在 概率 语法 中 引入 词汇 信息 。 














当前 ， 词 汇 知 识 库 的 建造 成 为 了 普遍 关注 的 问题 。 美 国 的 
WordNet、FrameNet 以 及 我 国 各 种 语法 知识 库 和 语义 知识 库 的 建设 ， 都 
反映 了 这 种 强烈 的 “词汇 主义 ”的 倾 癌 。 





第 五 ， 多 语言 在 线 自 然 语言 处 理 技 术 迅 猛 发 展 。 随 着 网 络 技 术 的 发 
展 ， 互 联网 《Web) 逐渐 变 成 一 个 多 语言 的 网 络 世 界 ， 互 联网 上 的 机 
需 翻 译 、 信 息 检 索 和 信息 抽取 等 自然 语言 处 理 的 需要 变 得 更 加 紧迫 。 














在 这 个 信息 网 络 时 代 ， 科 学 技术 的 发 展 日 新 月 异 ， 新 的 信息 、 新 的 
知识 如 雨后春笋 地 不 断 增 加 ， 出 现 了 “信息 爆炸 ”(information 
explosion) 的 局 面 。 现 在 ， 世 界 上 出 版 的 科技 刊物 达 165,000 种 ， 平 均 每 
天 有 大 约 20,000 篇 科技 论文 发 表 。 专 家 估计 ， 我 们 目前 每 天 在 互联 网 上 





传输 的 数据 量 之 大 ， 己 经 超过 了 整个 19 世 纪 的 全 部 数据 的 总 和 ; 我 们 在 
21 世 纪 所 要 处 理 的 知识 总 量 将 要 大 大 地 超过 我 们 在 过 去 2500 年 的 历史 长 
河中 所 积累 起 来 的 知识 总 量 。 据 中 国 互联 网 络 信息 中 心 CCNNIC) 统 

计 ，2002 年 底 全 球 的 网 页 总 数 已 经 达到 10” 这 样 的 天 文 数字 ， 信 息 量 的 
丰富 大 大 地 扩张 了 人 们 的 视野 ， 人 们 和 希望 能 够 准确 地 、 迅 速 地 获取 到 目 
己 需 要 的 信息 ， 上 自然 语言 信息 处 理 技术 已 经 成 为 了 解决 海量 信息 的 获取 
问题 的 强 有 力 的 手段 。 














而 所 有 的 这 些 信息 主要 都 是 以 语言 文字 作为 载体 的 ， 也 就 是 说 ， 网 
络 世 界 主 要 是 由 语言 文字 构成 的 。 


从 2000 年 到 2005 年 ， 互 联网 上 使 用 黄 语 的 人 数 仅 仅 增加 了 126.9%， 
而 在 此 期 间 ， 互 联网 上 使 用 俄语 的 人 数 增加 了 664.5%， 使 用 葡萄 牙 语 的 
人 数 增加 了 327.3%， 使 用 中 文 的 人 数 增加 了 309.6%， 使 用 法 语 的 人 数 增 
加 了 235.9%。 互 联网 上 使 用 英语 之 外 的 其 他 语言 的 人 数 增加 得 越 来 越 
多 ， 喘 语 在 互联 网 上 独霸 天 下 的 局 面 已 经 打破 ， 互 联网 确实 已 经 变 成 了 
多 语言 的 网 络 世 界 。 英 语 、 汉 语 、 日 语 、 西 班 牙 语 、 德 语 、 法 语 、 韩 国 
语 、 葡 萄 牙 语 、 意 大 利 语 和 俄语 成 为 了 十 大 网 络 语言 。 











据 CNNIC 统 计 ， 截 至 2008 年 6 月 底 ， 我 国 的 互联 网 网 民 人 数 已 经 达 
到 2.53 亿 ， 超 过 了 美国 的 网 民 人 数 ， 成 为 了 世界 上 互联 网 用 户 最 多 的 国 


oy 


Ro 








CNNIC 统 计数 据 最 近 又 显示 ， 截 至 2008 年 12 月 31 日 ， 我 国 网 民 数 达 
到 2.98 亿 人 ， 互 联网 普及 率 达 22.6%。 宽 带 网 民 规模 达到 2.7 亿 人 ， 占 网 
民 总 体 的 90.6%。 我 国 域名 总 数 达到 16,826,198 个 ， 其 中 CN 域名 数量 达 
到 13,572,326 个 ， 网 站 数 约 2,878,000 个 ， 国 际 出 口 带宽 约 
640,286.67Mbps。 截 至 2009 年 ， 我 国共 完成 互联 网 基础 设施 建设 投资 4.3 





万 亿 元 ， 建 成 光缆 网 络 线路 总 长 度 达 826.7 万 公里 。 


截至 2010 年 5 月 ， 我 国 网 民 的 数量 已 经 达到 4.04 亿 之 多 ， 使 用 手机 
上 网 的 网 民 达 到 2.33 亿 人 ， 我 国 成 为 了 世界 上 首屈一指 的 互联 网 大 国 。 
目前 ， 我 国 99.1% 的 乡镇 和 92% 的 行政 村 接 通 了 互联 网 ，95.6% 的 乡镇 接 
通 了 宽带 ，3G 网 络 已 基本 有 覆盖 全 国 。2009 年 我 国电 子 商 务 交 易 总 额 突 
破 4 万 亿 元 。 互 联网 已 经 成 为 我 国 经 济 发 展 的 火车 头 。 








由 于 互联 网 上 使 用 英语 之 外 的 其 他 语言 的 人 数 增 加 得 越 来 越 多 ， 英 
语 在 互联 网 上 独霸 天 下 的 局 面 已 经 彻底 打破 ， 互 联网 确实 已 经 变 成 
了 “多 语言 的 网 络 世界 ”(Cmnultilingual Web) 。“ 多 语言 > 这 个 特性 使 得 互 
联网 变 得 丰富 多 彩 ， 同 时 也 造成 了 不 同 语言 之 间 交 流 和 沟通 的 困难 ， 互 
联网 上 的 语言 障碍 问题 显得 越 来 越 突出 ， 越 来 越 严 重 。 因 此 ， 网 络 上 的 
不 同上 自然 语言 之 间 的 计算 机 自动 处 理 也 就 变 得 越 来 越 迫切 了 。 

















网 络 上 多 语言 的 机 器 翻译 、 信 息 检 索 、 信 息 抽 取 正 在 迅 独 地 发 展 。 
语种 辨认 (language identification) 、 路 语言 信息 检索 (cross-language 





information retrieval) 、 双 语言 术语 对 齐 (bilingual terminology 
alignment) 和 语言 理解 助手 〈comprehension aids) 等 自然 语言 处 理 的 多 
语言 在 线 处 理 技术 Cmultilingual on-line processing) 已 经 成 为 了 互联 网 
技术 和 语义 互联 网 的 重要 文 柱 。 





面 对 自 然 语 言 处 理 这 些 新 发 展 ，14 年 前 出 版 的 《自然 语言 的 计算 机 
处 理 》 一 书 的 内 容 束 显得 有 些 陈旧 了 。 








2000 年 ， 我 在 中 国 传媒 大 学 为 语言 信息 处 理 专业 的 硕士 生 开 设 了 
《 目 然 语言 处 理 》 的 课程 ， 以 《自然 语言 的 计算 机 处 理 》 作 为 主要 的 教 
材 参 竹 ，2008 年 ， 我 又 在 中 国 传媒 大 学 用 英语 给 硕士 生 讲 授 目 然 语言 处 





理 (Natural Language Processing〉 的 课程 ， 我 把 这 本 《自然 语言 的 计算 
机 处 理 》 全 部 翻译 成 英文 ， 发 给 学 生 作为 讲义 ， 以 便 提 高 学 生 们 阅读 喘 
语 专业 文献 的 能 力 。 在 尔后 多 年 的 教学 过 程 中 ， 我 密切 注意 国内 外 上 自然 
语言 处 理 的 新 发 展 的 情况 ， 不 断 地 把 这 些 新 的 发 展 情况 写 到 我 的 教材 

中 ， 边 教 边 改 ， 删 除了 一 些 过 时 的 旧 内 容 ， 增 加 了 不 少 当代 的 新 内 容 ， 

并 针对 教学 的 要 求 重 新 调整 了 全 书 的 结构 ， 对 《自然 语言 的 计算 机 处 

理 》 的 中 文本 进行 了 较 大 幅度 的 增订 ， 形 成 了 一 部 内 容 丰 富 的 自然 语言 
处 理 课 程 的 中 文 讲义 。 








这 部 中 文 讲义 在 学 习 自然 语言 处 理 的 同学 中 传 布 ， 不 仅 中 国 传媒 大 
学 的 同学 们 争 相 传阅 ， 北 京 市 其 他 高 校 学 习 计算 语言 学 的 同学 们 也 争 相 
阅读 。 














2011 年 4 月 我 在 新 浪 网 站 上 开 了 文化 博客 
Cwww.blog.sina.com.cn/u/1926267847 ) ， 在 我 的 文化 博客 中 ， 我 也 介 
绍 了 这 部 中 文 讲 义 的 部 分 内 容 。 





由 于 内 容 新 颖 ， 覆 盖 全 面 ， 深 入 浅 出 ， 通 俗 易 懂 ， 这 部 讲义 得 到 同 
学 们 一 致 的 好 评 。 


目前 ， 不 少 学 校 的 中 文系 、 外 语系 和 计算 机 系 都 开设 了 自然 语言 处 
理 或 计算 语言 学 的 谍 程 ， 但 由 于 缺乏 适当 的 教材 ， 教 师 难 教 ， 学 生 难 
学 。 因 此 很 多 同学 都 建议 我 正式 出 版 这 个 新 的 讲义 ， 以 满足 当前 的 教学 
急需 。 于 是 我 对 这 个 讲义 做 了 一 些 文字 上 的 修饰 ， 增 加 了 很 多 新 的 内 
容 ， 更 名 为 《 目 然 语言 处 理 简明 教程 》， 仍 然 由 上 海外 语 教育 出 版 社 出 
版 。 














《 目 然 语言 处 理 简明 教程 》 共 分 十 八 章 。 第 一 章 至 第 十 章 讲 目 然 语 





言 处 理 的 基本 方法 ， 第 十 一 章 至 第 十 八 章 讲 目 然 语 言 处 理 的 应 用 。 





各 章 内 容 简 述 如 下 。 


第 一 章 讲 述 上 自然 语言 处 理 与 理论 语言 学 的 关系 ， 说 明 目 然 语 言 处 理 
对 语言 学 各 个 方面 的 深刻 影 啊 。 











第 二 章 讲 述 词汇 目 动 处 理 ， 介 绍 了 正则 表达 式 、 最 小 编辑 距离 算 
法 ， 分 析 了 英语 中 的 词汇 歧义 现象 ， 介 绍 了 儿 种 重要 的 词义 排 卜 方法 。 


第 三 草 讲 述 形态 上 自动 处 理 ， 以 有 限 状态 转移 网 络 为 工具 ， 说 明 秋 着 
型 语言 和 分 析 型 语言 的 形态 上 自动 处 理 方法 ， 并 介绍 了 书面 汉语 的 目 动 切 
词 方法 、 汉 语 和 英语 的 文本 目 动 标注 的 方法 、 基 于 统计 的 目 动 标注 方 
s 





第 四 章 讲 述 句 法 目 动 处 理 ， 介 绍 了 递归 转移 网 络 和 扩充 转移 网 络 为 
工具 ， 并 以 短语 结构 语法 为 工具 ， 介 绍 了 自 底 向 上 旗 析 法 、 自 项 向 下 齐 
IMA EAHA CKY. 


PARIERA, Mr SAI ZA BO, MATE 
BOE", 4r SRSA A H A S PRERA, HTA TAAA 
解 的 方法 。 





第 六 章 讲 述 民 构 子 串 表 和 线 图， 介绍 了 良 构 子 串 表 和 线 图 分 析 法 。 


第 七 章 讲述 复杂 特征 理论 以 及 合 一 运算 方法 ， 并 介绍 了 中 文 信息 处 
理 中 的 多 叉 多 标记 树 模 型 。 





第 八 章 讲述 语义 目 动 处 理 ， 介 绍 了 意义 的 形式 化 表示 方法 、 一 阶 谓 
词 演算 、 句 法 驱动 的 语义 分 析 、 浅 层 语义 分 机 、 义 素 分 析 法 、 语 义 场 、 


结构 语义 学 。 


第 九 章 讲 述 马 尔 科 夫 链 和 隐 马 尔 可 夫 模 型 ， 介 绍 了 马尔 可 夫 链 、 隐 
马尔 可 夫 模 型 、 向 前 算法 、 韦 特 比 解 码 算法 、 癌 前 同 后 算法 。 


第 十 章 讲 述 语料库 语言 学 ， 介 绍 了 语料库 语言 学 的 兴起 、 建 立 和 使 
用 语料库 的 意义 ， 分析 了 语料库 研究 中 的 一 些 原则 问题 ， 最 后 介绍 历史 
上 的 语料库 和 中 国 的 语料库 研究 。 

第 十 一 章 讲 述 机 器 翻译 ， 介 绍 了 基于 规则 的 机 器 翻译 、 基 于 语料库 
的 机 器 翻译 、 口 语 机 器 翻译 、 翻 译 记 忆 与 本 土 化 工具 。 

第 十 二 草 讲 述 信息 目 动 检索 ， 介 绍 了 信息 检索 的 一 般 原 理 和 发 展现 
状 、 信 息 自 动 检索 与 自然 语言 处 理 技 术 、 语 种 辨认 与 跨 语 言 信息 检索 。 




















第 十 三 章 讲 述 信息 抽取 和 自动 文摘 ， 介 绍 了 名 称 的 自动 抽取 、 事 件 
的 目 动 抽取 和 上 自动 文摘 技术 。 














第 十 四 章 讲述 文本 数据 挖掘 ， 介 绍 了 文本 数据 挖掘 的 特点 、 如 何 从 
文本 中 挖掘 语言 学 知识 、 如 何 从 文本 中 挖掘 非 语 言 学 知识 。 





第 十 五 章 讲 述 目 然 语言 理解 、 目 动 问答 与 人 机 接口 ， 介 绍 了 目 然 语 
言 理解 研 究 的 发 展 、 汉 语 自然 语言 理解 的 特点 和 困难 、 自 动 问答 系统 、 
目 然 语言 人 机 接口 。 








第 十 六 草 讲 述 目 然 语言 处 理 技术 在 术语 研究 中 的 应 用 ， 介 绍 术 语 数 
据 库 和 计算 术语 学 。 





第 十 七 章 讲述 自然 语言 处 理 技术 在 语言 教学 中 的 应 用 ， 介 绍 计算 机 
辅助 语言 教学 和 语言 测试 。 





第 十 八 章 讲述 语音 合成 、 语 音 识 别 与 汉字 识别 。 


从 本 书 内 容 安排 可 以 看 出 ， 本 书 的 重点 是 目 然 语 言 处 理 的 方法 与 应 
用 ， 而 不 是 理论 。 对 于 自然 语言 处 理 的 许多 理论 (如 广义 短语 结构 语 
法 、 词 汇 功能 语法 、 功 能 合 一 语法 、 范 畴 语法 、 蒙 塔 古 语法 、 优 选 语义 
学 、 框 架 语 义学 等 ) ， 仅 在 说 明 方法 和 有 关 应 用 时 加 以 简要 的 介绍 ， 不 
做 详尽 的 叙述 ， 以 便 提 高 本 书 的 通俗 性 和 实用 性 。 本 书 在 论述 时 尽量 做 
到 简单 而 明确 ， 有 中 等 文化 程度 的 广大 该 者 ， 阅 读本 书 将 不 会 有 很 大 的 
困难 。 














本 书 还 特别 注意 介绍 自然 语言 处 理 中 的 一 些 新 的 应 用 领域 ， 把 原来 
《 目 然 语言 的 计算 机 处 理 》 中 的 自然 语言 处 理 系统 这 一 章 进 一 步 加 以 扩 
充 ， 除 了 介绍 机 器 翻译 、 自 然 语 言 理 解 、 语 音 识别 、 语 音 合成 、 文 字 识 
别 、 术 语 数 据 库 、 计 算 机 辅助 语言 教学 、 信 息 检 索 等 日 然 语言 处 理 的 传 
统 应 用 领域 之 外 ， 还 介绍 了 信息 上 自动 抽取 、 文 本 数据 挖 气 、 问 答 系统 、 
自然 语言 人 机 接口 等 新 兴 的 应 用 领域 。 























本 书 特别 注意 介绍 自然 语言 处 理 中 的 新 方法 ， 尺 可 能 深入 地 、 具 体 
地 插 述 每 一 种 方法 的 技术 原理 ， 详 细 地 说 明 每 一 种 方法 的 操作 过 程 。 对 
于 自然 语言 处 理 中 的 一 些 基础 性 的 理论 ， 请 读者 参阅 笔者 的 《数理 语言 
学 》、《 目 动 翻译 》、《 中 文 信息 处 理 与 汉语 研究 》、《 现 代 汉 字 和 计 
算 机 》、《 语 言 与 数学 》、《 计 算 语 言 学 基础 》、《 计 算 语言 学 探 
索 》、《 机 器 翻 译 研 究 》、《 机 右 翻 译 今昔 谈 》、《 现 代 术 语 学 引 
论 》、《 目 然 语 言 处 理 的 形式 模型 》 等 著作 ， 本 书 不 再 作 介绍 。 

















笔者 在 写作 本 书 时 ， 还 尽量 考虑 到 不 同学 科 读 者 的 需要 ， 使 语言 学 
工作 者 可 以 从 中 了 解 计算 机 处 理 上 自然 语言 有 关 技 术 ， 使 计算 机 工作 者 可 
以 从 中 了 解 现代 语言 学 的 有 关 知 识 。 和 希望 本 书 的 出 版 ， 对 于 语言 学 工作 


者 和 计算 机 工作 者 在 自然 语言 处 理 这 个 学 科 中 的 进一步 合作 ， 能 够 有 所 
Wai. 








当然 ， 本 书 的 写作 也 参考 过 国内 时 贤 的 论文 和 著作 多 种 。 如 果 没 有 
国内 外 学 者 的 出 色 工 作 和 宝贵 的 研究 成 果 ， 本 书 是 写 不 出 来 的 。 本 书 在 
每 草 末 均 列 出 有 关 的 参考 文献 ， 在 本 书 出 版 之 际 ， 谨 问 他 们 表示 衷心 的 
感谢 。 


EARS, Be RAB CHWARAE Meh, BA ab 
理 作为 一 门 交 叉 性 边缘 性 学 科 ， 涉 及 文科 、 理 科 、 工 科 各 个 领域 的 知 
W, BaF, SAARC. WICH, MARS, Bist 
内 外 读者 批评 指正 。 





冯 志 伟 于 杭州 下 沙 


2012 年 7 月 
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第 一 草 ” 目 然 语言 处 理 与 理论 语言 
E 


采用 计算 机 技术 来 研究 和 处 理 自 然 语言 是 20 世 纪 50 年 代 才 开 始 的 ， 
50 多 年 来 ， 这 项 研究 取得 了 长 足 的 进展 ， 形 成 了 “自然 语言 处 理 ” 这 门 重 
要 的 新 兴学 科 。 在 这 一 章 中 ， 我 们 将 说 明 目 然 语言 处 理 在 语言 学 以 及 现 
代 科 学 体系 中 的 地 位 及 其 对 语言 研究 各 个 方面 的 深刻 影 啊 。 











我 们 认为 ， 计 算 机 对 目 然 语 言 的 研究 和 处 理 ， 一 般 应 经 过 如 下 四 个 
方面 的 过 程 : 


第 一 ， 把 需要 研究 的 问题 在 语言 学 上 加 以 形式 化 ， 建 并 语言 的 形式 
化 模型 ， 使 之 能 以 一 定 的 数学 形式 ， 严 密 而 规整 地 表示 出 来 ， 这 个 过 程 
可 以 叫做 “形式 化 ”; 


第 二 ， 把 这 种 严密 而 规整 的 数学 形式 表示 为 算法 ， 这 个 过 程 可 以 叫 
做 “算法 化 ”; 











第 三 ， 根 据 算法 编写 计算 机 程序 ， 使 之 在 计算 机 上 加 以 实现 ， 建 并 
各 种 实用 的 目 然 语 言 处 理 系 统 ， 这 个 过 程 可 以 叫做 “程序 化 ”; 





第 四 ， 对 于 所 建立 的 自然 语言 处 理 系统 进行 评测 ， 使 之 不 断 地 改进 
质量 和 性 能 ， 以 满足 用 户 的 要 求 ， 这 个 过 程 可 以 叫做 “实用 化 ”。 





因此 ， 为 了 研究 自然 语言 处 理 ， 我 们 不 仅 要 有 语言 学 方面 的 知识 ， 








还 要 有 数学 和 计算 机 科学 方面 的 知识 ， 这 样 目 然 语言 处 理 就 成 为 了 一 门 
界 乎 语言 学 、 数 学 和 计算 机 科学 之 间 的 边缘 性 的 交叉 学 科 ， 它 同时 涉及 
文科 、 理 科 和 工科 三 大 领域 。 








早 在 计算 机 出 现 以 前 ， 喘 国 数学 家 图 灵 CA. M. Turing) 就 预见 到 
未 来 的 计算 机 将 会 对 目 然 语 言 研究 提出 新 的 问题 。 


他 在 《机 器 能 思维 吗 》 一 文中 指出 :“ 我 们 可 以 期 等 ， 总 有 一 天 机 
器 会 同人 在 一 切 的 智能 领域 里 竞争 起 来 。 但 是 ， 以 哪 一 点 作为 竞争 的 出 
发 点 呢 ? 这 是 一 个 很 难 决 定 的 问题 。 许 多 人 以 为 可 以 把 下 棋 之 类 的 极为 
抽象 的 活动 作为 最 好 的 出 发 点 ， 不 过 ， 我 更 倾 癌 于 文 持 另 一 种 主张 ， 这 
种 主张 认为 ， 最 好 的 出 发 点 是 制造 出 一 种 具有 智能 的 、 可 用 钱 买 到 的 机 
器 ， 然 后 ， 教 这 种 机 器 理解 英语 并 且说 英语 。 这 个 过 程 可 以 仿效 小 孩子 
说 话 的 那 种 办 法 来 进行 。”(Turing, 1950) 








图 灵 提 出 ， 检 验 计算 机 智能 高 低 的 最 好 办 法 是 让 计算 机 来 讲 灵 语 和 
理解 英语 ， 他 天 才 地 预见 到 计算 机 和 自然 语言 将 会 结 下 不 解 之 缘 ， 他 设 
计 了 如 图 1.1 所 示 的 图 灵 测 试 〈Turing test) 。 









询问 者 


图 1.1 图 灵 测 试 








在 图 灵 测 试 中 ， 图 灵 采 用 * 问 ?与 “ 答 ” 模 式 ， 即 观察 者 通过 控制 打字 
机 问 两 个 测试 对 象 通话 ， 其 中 一 个 是 人 ， 男 一 个 是 机 此 。 要 求 观察 者 不 
断 提 出 各 种 问题 ， 从 而 辨别 回答 者 是 人 还 古 机 器 。 





图 灵 还 为 这 项 测试 羔 目 拟定 了 几 个 示范 性 问题 : 








ll: 请 给 我 写 出 有 关 “ 第 四 号 桥 ” 主 题 的 十 四 行 诗 。 

答 : 不 要 问 我 这 道 题 ， 我 从 来 不 会 写 诗 。 

问 : 34957 加 70764 等 于 多 少 ? 

Ti: 〈 停 30 秒 后 ) 105721 

问 : 你 会 下 国际 象棋 吗 ? 

答 : 是 的 。 

|]: 我 在 我 的 K1 处 有 棋子 K; 你 仅 在 K6 处 有 棋子 K， 在 R1 处 有 
棋子 R。 现 在 轮 到 你 走 ， 你 应 该 下 那 步 棋 ? 
〈 停 15 秒 钟 后 ) 棋子 R 走 到 R8 处 ， 将 军 ! 


ob 


图 灵 指 出 : “如 采 机 器 在 某 些 现实 的 条 件 下 ， 能 够 非常 好 地 模仿 人 
回答 问题 ， 以 至 提问 者 在 相当 长 时 间 里 误 认 它 不 是 机 器 ， 那 么 机 器 就 可 
以 被 认为 是 能 够 思维 的 。”(Turing, 1950) 


从 表面 上 看 ， 要 使 机 顺 回 答 按 一 定 范围 提出 的 问题 似乎 没有 什么 轩 
难 ， 可 以 通过 编制 特殊 的 程序 来 实现 。 然 而 ， 如 果 提 问 者 并 不 遵循 常规 
标准 ， 编 制 回答 的 程序 是 极其 困难 的 事情 。 例 如 ， 提 问 与 回答 呈现 出 下 
列 状况 ; 





I: 你 会 下 国际 象棋 吗 ? 
答 : 是 的 。 


问 : 
答 : 


In] 
答 


你 会 下 国际 象棋 吗 ? 
是 的 。 


: 请 再 次 回答 ， 你 会 下 国际 象棋 吗 ? 
: 是 的 。 





你 多 半 会 想到 ， 面 前 的 这 位 是 一 部 笨 机 器 。 








如 果 提 问 与 回答 呈现 出 另 一 种 状态 : 


问 : 
IX. 


E. 


问 : 


全 


In] 
答 


那么 ， 


你 会 下 国际 象棋 吗 ? 
是 的 。 
你 会 下 国际 象棋 吗 ? 


Zi: 是 的 ， 我 不 是 已 经 说 过 了 吗 ? 
: 请 再 次 回答 ， 你 会 下 国际 象棋 吗 ? 
: REDD, FIE he EPER e 





你 面前 的 这 位 大 概 是 人 而 不 是 机 器 


。 上 述 两 种 对 话 的 区 别 在 





于 ， 第 一 种 可 明显 地 感到 回答 者 是 从 知识 库 里 提取 简单 的 答案 ， 第 二 种 
则 具有 分 析 纤 合 的 能 力 ， 回 答 者 知道 观察 者 在 反复 提出 同样 的 问 

题 。“ 图 灵 测 试 ? 没 有 规定 问题 的 范围 和 提问 的 标准 ， 如 果 想 要 制造 出 能 
通过 试验 的 机 器 ， 以 我 们 现在 的 技术 水 平 ， 必 须 在 电脑 中 储存 人 类 所 有 
可 以 想到 的 问题 ， 储 存 对 这 些 问 题 的 所 有 合乎 常理 的 回答 ， 并 且 需 要 理 
智 地 作出 选择 。 


ELS 
钟 的 提问 之 后 








， 大 约 到 20 志 纪 末 叶 ， 具 有 10GB 存 贮 量 的 计算 机 经 过 5 分 
， 将 会 有 30% 的 机 会 使 提问 者 感到 困惑 ， 辩 不 清 回 答 问题 


的 是 人 还 是 计算 机 。 如 果 你 也 总 是 像 计算 机 那样 地 去 愚弄 别人 ， 你 也 可 


能 说 不 清楚 究 葛 采用 什么 样 的 严格 标准 去 愚弄 ， 


才 可 以 使 别人 感到 困 





惑 。 然 而 ， 对 于 图 元 来 说 ， 关 键 的 问题 是 ， 只 要 使 用 人 的 语言 就 足以 作 
为 测定 计算 机 是 个 有 智能 的 可 操作 标准 了 。 








^ Aule. fE19665E, KHR AKHA (J. Weizenbaum) 
就 设计 了 一 个 叫做 ELIZA 的 程序 来 验证 图 灵 的 思想 (Weizenbaum, 
1966) 。 


ELIZA 是 一 个 早期 的 自然 语言 处 理 系 统 ， 这 个 系统 能 与 用 户 进 行 有 
一 定 限 制 的 对 话 。 下 面 是 ELIZA 系 统 模 拟 心理 医生 的 一 段 对 话 : 





用 户 : You are like my father in some way.〔 你 在 某 些 方 面 很 像 
TIBIAE. ) 

ELIZA: WHAT RESEMBLANCE DO YOU SEE (你 看 是 哪些 
方面 像 呢 ? ) 

用 户 : You are not very aggressive but I think you don't want me 
to notice that.《〈 你 不 是 一 个 非常 坚持 自 见 的 人 ， 可 是 你 不 愿意 我 提 
起 这 一 点 。) 

ELIZA: WHAT MAKES YOU THINK I AM NOT 
AGGRESSIVE (你 赁 什么 说 我 不 是 一 个 非常 坚持 自 见 的 人 ? ) 

用 户 : You don't argue with me.《〈 因 为 你 不 想 和 我 争论 。) 

ELIZA: WHY DO YOU THINK I DON'T ARGUE WITH 
YOU (为 什么 你 认为 我 不 想 和 你 争论 呢 ?) 

用 户 : You are afraid of me. (HARAR. ) 

ELIZA: DOES IT PLEASE YOU TO BELIEVE I AM AFRAID 
OF YOU (和 任 什 么 使 得 你 认为 我 怕 你 ? ) 


显而易见 ，ELIZA 只 是 使 用 模式 匹配 的 方法 来 处 理 输入 并 且 把 它 转 
换 成 适当 的 输出 ， 这 是 一 个 非常 简单 的 系统 。 事 实 上 ELIZA 并 没有 必要 


懂得 如 何 去 模 拟 心理 医生 ， 它 只 是 使 用 简单 的 模式 匹配 束 取 得 了 成 功 。 
正如 系统 的 设计 人 魏 岑 鲍 姆 所 说 的 ， 在 ELIZA 系 统 中 ， 听 话 者 的 所 作 所 
为 就 好 像 他 们 对 于 周围 的 世界 一 无 所 知 。 


ELIZA 与 网 灵 思 想 的 深刻 联系 在 于 ， 很 多 与 ELIZA 进 行 过 交互 的 人 
都 相信 ，ELIZA 确 实 理解 了 他 们 所 说 的 话 以 及 他 们 所 提出 的 问题 。 魏 岑 
鲍 姆 在 1976 年 指出 ， 甚 至 在 把 程序 的 操作 过 程 铝 人 们 作 了 解释 之 后 ， 仍 
然 有 不 少 的 人 继续 相信 ELIZA 的 能 


近年 来 ， 人 们 又 以 不 同 的 形式 重复 着 魏 崔 鲍 姆 的 工作 。 自 1991 年 以 
来 ， 在 罗布 讷 奖 (Loebner prize) 的 比赛 中 ， 人 们 试图 设计 各 种 计算 机 
程序 来 做 图 灵 测 试 。 尽 管 这 些 比 赛 的 科学 意义 不 是 很 大 ， 不 过 ， 这 些 比 
赛 的 成 绩 说 明 ， 哪 但 是 很 粗糙 的 程序 ， 有 时 也 会 愚弄 人 们 的 判断 力 。 哲 
学 家 和 人 工 智能 研究 者 对 于 图 灵 测 试 究 竟 是 否 适 合用 来 测试 智能 的 争论 
己 经 持续 很 多 年 了 ， 但 是 ， 上 述 比 赛 的 结果 ， 并 没有 平 肯 这 样 的 争论 。 








不 过 ， 这 样 的 比赛 结果 与 计算 机 究竟 能 否 思维 ， 或 者 计算 机 完 竟 能 
个 理解 自然 语言 的 问题 是 风 马 牛 不 相 及 的 。 更 为 重要 的 是 ， 在 社会 科学 
中 的 有 关 研 究 证 实 了 图 灵 在 同一 篇 文革 中 的 预见 (Turing, 1950) : 








然而 ， 我 相信 ， 在 本 世纪 的 末 叶 ， 词 语 的 使 用 和 教育 的 与 论 将 
大 为 改观 ， 使 我 们 有 可 能 谈论 机 器 思维 而 不 致 坦 到 别人 的 反 驱 。 


现在 已 经 清楚 ， 不 管 人 们 相信 什么 ， 不 管 人 们 是 否 已 经 知道 了 计算 
机 的 内 部 工作 情况 ， 他 们 都 在 谈论 计算 机 ， 并 且 都 在 与 计算 机 进行 着 区 
互 ， 把 计算 机 当 作 一 个 社会 实体 。 人 们 把 计算 机 当 作 人 一 样 地 对 待 ， 他 
们 要 对 它 讲 礼貌 ， 他 们 把 它 当 作 团 队 中 的 成 员 ， 并 且 期 望 计算 机 能 够 理 
解 人 们 的 需求 ， 能 够 非 第 自然 地 与 人 们 进行 交互 。 





例如 ， 尼 上 弗 斯 (Reeves) FIZ (Nass) 发 现 ， 当 计算 机 要 求人 们 
来 评价 计算 机 的 所 作 所 为 好 不 好 的 时 候 ， 人 们 要 针对 不 同 计算 机 提出 的 
同样 的 问题 做 出 更 多 的 正面 的 回答 。 人 们 似乎 担心 他 们 给 计算 机 的 回答 
不 够 礼 狗 。 尼 弗 斯 和 纳 斯 在 另外 的 实验 中 还 上 发现， 如 果 计 算 机 对 人 们 说 
一 些 奉承 的 话 ， 人 们 给 计算 机 的 评价 也 就 会 高 一 些 。 给 出 这 样 的 一 些 预 
设 ， 使 用 自然 语言 处 理 系统 就 能 够 给 众多 的 用 户 在 很 多 应 用 方面 提供 更 
加 自然 的 交互 界面 。 这 些 导 致 了 一 个 称 为 会 话 代 理 (conversational 
agents) 的 研究 焦点 ， 所 谓 会 话 代 理 就 是 通过 会 话 进行 交际 的 计算 机 人 
造 实 体 ， 会 话 代 理 的 研究 将 会 持续 很 长 的 时 间 。 














2011 年 北京 时 间 2 月 17 日 上 午 ， 在 美国 家 喻 户 晓 的 电视 智力 问答 苋 
赛 节 目 《 和 危险 边缘 》 (Jeopardy) 中 ，IBM 超 级 计算 机 系统 沃 森 
CWATSON ) 战胜 了 该 节目 有 史 以 来 最 优秀 的 两 位 人 类 冠军 肯 (Ken) 
和 布 拉 德 (Brad) ， 圆 满 结束 了 历时 三 天 的 人 机 大 战 。 


沃 森 是 20 多 名 IBM 公 司 研 究 人 员 4 年 心血 的 结晶 ， 正 是 他 们 突破 性 
地 给 予 了 沃 森 理 解 自然 语言 和 精确 回答 问题 的 能 力 ， 才 将 人 工 智 能 推 癌 
新 的 阶段 。 





图 灵 奖 获得 者 、 斯 坦 福 大 学 人 工 智 能 专家 费 根 饱 姆 CEdward 
Feigenbaum) 曾经 说 过 : “在 20 年 前 ， 可 能 所 有 人 都 会 认为 机 器 在 智力 
问答 中 战胜 人 类 是 不 可 能 的 。” 沃 森 的 胜利 使 “机 器 在 智力 问答 中 战胜 人 
类 ” 变 成 了 现实 ! 


《危险 边缘 》 市 目 中 的 智力 问答 ， 要 求 计算 机 必须 理解 人 类 的 语 
。 人 类 语言 是 完全 开放 式 的 ， 往 往 模 校 两 可 ， 需 要 上 下 文才 能 理解 其 
思 。 虽 然 IBM 公 司 的 研究 人 员 可 以 轻松 理解 人 类 语言 ， 但 开发 理解 人 
类 语言 的 超级 计算 机 系统 却 极 具 挑战 性 。 





ak DI 


尽管 存储 了 大 量 的 百科 全 书 和 其 他 信息 ， 但 《 危 辽 边缘 》 的 问题 并 
不 会 让 活 森 轻易 地 找到 答案 ， 因 为 寻找 答案 从 来 不 是 计算 机 的 强项 。 搜 
索引 擎 没 法 回答 问题 ， 只 能 给 出 符合 搜索 关键 词 的 成 二 上 万 个 似是而非 
的 可 能 答案 ， 而 沃 条 要 通过 各 种 不 同 的 算法 ， 对 所 有 的 候选 答案 取得 更 
多 的 证 据 文 持 ， 再 根据 证 据 的 强度 对 每 个 候选 答案 给 出 其 置信 度 ， 最 后 
根据 置信 度 来 决定 是 人 否 加 用 户 提 供 置信 度 最 高 的 唯一 答案 。 这 一 过 程 是 
极其 复杂 的 ， 因 此 需要 动用 几 千 个 处 理 喜 的 超级 计算 机 来 处 理 一 个 问 
题 。 汪 和 森 需 要 掌握 大 量 的 知识 ， 并 在 相关 和 不 相关 的 信息 中 发 现 线索 。 
对 计算 机 来 说 ， 这 是 一 个 巨大 的 挑战 。 人 类 可 以 在 瞬间 辨别 出 事物 之 间 
的 联系 ， 但 是 计算 机 却 必 须 并 行 地 考虑 所 有 事情 ， 从 而 得 出 结论 。 

















2011 年 2 月 的 人 机 大 战 ， 沃 条 胜利 了 。 这 意味 独 IBM 公 司 掌 握 了 对 
人 类 信息 需求 和 问题 给 予 更 准确 啊 应 的 技术 能 力 ， 并 预见 到 了 这 个 领域 
存在 巨大 商机 。 这 项 成 果 还 将 被 广泛 应 用 于 多 个 领域 ， 例 如 更 快 、 更 准 
确 地 进行 医疗 诊断 ， 研 究 洪 在 的 药物 交互 作用 ， 帮 助 律 师 和 法 官 寻找 案 
例 ， 在 金融 领域 实现 “假设 ”场景 分 析 ， 帮 助 公司 培 养 更 精明 的 销售 人 
员 .……: 添 和 森 的 出 现 ， 颠 覆 了 此 前 简单 的 人 机 关系 ， 并 将 市 来 一 个 壬 新 的 
人 机 合作 时 代 。 


蛮 姆 斯 基 在 计算 机 出 现 的 初期 把 计算 机 程序 设计 语言 与 自然 语言 置 
于 相同 的 平面 上 ， 用 统一 的 观点 进行 研究 和 解说 。 











他 在 《自然 语言 形式 分 析 导 论 》 一 文中 ， 从 数学 的 角度 给 语言 提出 
了 新 的 定义 ， 指 出 :“ 这 个 定义 既 适 用 于 目 然 语言 ， 又 适用 于 逻辑 和 计 
算 机 程序 设计 理论 中 的 人 造 语言 ” 吓 。 


在 《语法 的 形式 特性 》 一 文中 ， 他 专门 用 了 一 节 的 


篇 
设计 语言 ， 讨 论 了 有 关 程 序 设计 语言 的 编译 程序 问题 ， 这 些 问题 ， 是 


为 “组 成 成 分 结构 的 语法 的 形式 研究 ”四 ， 从 数学 的 角度 提出 来 ， 并 从 计 
算 机 科学 理论 的 角度 来 探讨 的 。 


他 在 《上 下 文 无 关 语 言 的 代数 理论 》 一 文中 提出 : “我 们 这 里 要 考 
虑 的 是 各 种 生成 句子 的 闭 置 ， 它 们 又 以 各 种 各 样 的 方式 ， 同 自然 语言 的 
语法 和 各 种 人 造 语言 的 语法 二 者 都 有 着 密 切 的 联系 。 我 们 将 把 语言 直接 
地 看 成 在 符号 的 茶 一 有 限 集合 V 中 的 符号 串 的 集合 ， 而 V 就 叫做 该 语言 
的 词汇 .…….， 我 们 把 语法 看 成 是 对 程序 设计 语言 的 详细 说 明 ， 而 把 符号 
PERETE. "Bl 








在 这 里 乔 姆 斯 基 把 自然 语言 和 程序 设计 语言 放 在 同一 平面 上 ， 从 数 
学 和 计算 机 科学 的 角度 ， 用 统一 的 观点 来 加 以 考察 ， 对 “语言 “ 词 
汇 ?” 等 语言 学 中 的 基本 概念 ， 获 得 了 高 度 抽象 化 的 认识 。 














图 灵 和 乔 姆 斯 基 都 是 当代 第 一 流 的 学 者 。 图 灵 是 现代 计算 机 科学 理 
论 的 黄 基 人 ， 而 乔 姆 斯 基 则 是 转换 生成 语法 学 派 的 奠基 人 。 他 们 以 学 术 
大 师 特 有 的 远见 卓识 ， 指 出 了 计算 机 与 自然 语言 的 密切 联系 ， 他 们 的 思 
想 成 为 了 日 后 自然 语言 处 理 取 之 不 尽 的 源泉 。 











目 然 语言 处 理 的 出 现 ， 使 得 语言 学 在 现代 科学 体系 中 的 地 位 有 了 明 
显 的 变化 ， 使 语言 学 由 一 门 基 础 科学 变 成 了 带头 科学 ， 获 得 了 与 数学 、 
哲学 同等 的 地 位 ， 语 言 学 将 成 为 人 文科 学 发 展 的 突破 点 和 生长 点 ， 它 的 
重要 意义 已 经 为 越 来 越 多 的 人 所 认识 。 








自然 语言 处 理 的 研究 首先 是 从 机 器 翻译 (Machine Translation, {aj 
称 MT) 开始 的 。1946 年 电子 计算 机 刚 一 问世 ， 人 们 在 把 计算 机 广泛 地 
应 用 于 数值 运算 的 同时 ， 也 想到 了 利用 计算 机 把 一 种 或 几 种 语言 翻译 成 
男 外 一 种 或 几 种 语言 。 从 20 世 纪 50 年 代 初 期 到 60 年 代 中 期 ， 机 器 翻译 一 








直 是 目 然 语言 处 理 研 究 的 中 心 谍 题 ， 当 时 采用 的 主要 是 “ 词 对 词 ? 翻 译 方 
式 ， 这 种 不 是 建立 在 对 目 然 语 言 理解 的 基础 上 的 简单 撤 术 ， 没 有 得 到 预 
期 的 翻译 效果 。 








20 世 纪 60 年 代 中 期 ， 人 们 开始 转 入 对 目 然 语言 的 语法 、 语 义 和 语 用 
等 基本 问题 的 研究 ， 并 答 试 着 让 计算 机 来 理解 自然 语言 。 许 多 学 者 认 
为 ， 断 定 计 算 机 是 否 理 解 了 自然 语言 的 最 直观 的 方法 ， 束 是 让 人 们 同 计 
算 机 对 话 ， 如 果 计 算 机 对 人 用 目 然 语言 提出 的 问题 能 作出 回答 ， 就 证 明 
计算 机 已 经 理解 了 自然 语言 ， 这 样 ， 就 出 现 了 “人 机 对 话 ”( 或 “ 目 然 语 
EE) 的 研究 。 目 然 语 言 处 理 的 理论 和 方法 也 就 在 这 些 具 体 的 研究 
中 逐渐 形成 、 成 熟 并 完善 起 来 。 

















目前 ， 除 了 机 器 翻译 和 自然 语言 理解 之 外 ， 自 然 语言 处 理 的 研究 领 
域 还 扩展 到 了 目 然 语言 人 机 接口 、 信 息 目 动 检索 、 信 息 自 动 抽取 、 文 本 
数据 挖掘 、 文 本 上 自动 分 类 、 目 动 文 摘 、 命 名 实体 识别 、 术 语 数据 库 、 语 
料 库 、 计 算 机 辅助 教学 、 语 音 目 动 识别 与 合成 、 文 字 目 动 识 别 、 言 语 统 
计 、 词 典 编 复 、 风 格 学 研究 等 领域 。 自 然 语言 处 理 已 经 成 为 现代 科学 技 
术 的 一 个 研究 热点 。 





























自然 语言 处 理 的 研究 与 计算 语言 学 〈computational Linguistics, ff 
称 CL) 的 研究 是 密 不 可 分 的 。 计 算 语 言 学 可 以 看 成 是 自然 语言 处 理 的 
同义词 ， 当 我 们 主要 涉及 方法 的 时 候 ， 用 “上 自然 语言 处 理 ? 这 个 术语 ， 当 
我 们 主要 涉及 理论 的 时 候 ， 用 “计算 语言 学 ”这 个 术语 。 因 此 ， 在 我 们 讨 
论 自 然 语言 处 理 的 各 种 问题 时 ， 也 不 可 避免 地 会 讨论 到 计算 语言 学 的 问 
题 ， 用 到 计算 语言 学 这 个 术语 。 


























1952 年 ， 在 美国 的 朵 省 理工 学 院 召 开 了 第 一 次 机 器 翻译 会 议 ， 在 
1954 年 ， 出 版 了 第 一 本 机 需 翻 译 的 杂志 ， 这 个 杂志 的 名 称 束 叫 


做 Machine Translation 〈《 机 器 翻译 》) 。 尽 管 人 们 在 目 然 语 言 的 计算 
方面 进行 了 很 多 的 研究 工作 ， 但 是 ， 直 到 20 世 纪 60 年 代 中 期 ， 才 出 现 了 
Computational Linguistics (计算 语言 学 ) 这 个 术语 ， 而 且 这 个 术语 是 偷 
(reef. 2E a E Hh He SWAY o 











1965*EMachine Translation 杂志 改名 为 Machine Translation and 

Computational Linguistics (《 机 器 翻译 和 计算 语言 学 》) 杂志 ， 在 杂志 

的 封面 上 ， 首 次 出 现 了 “Computational Linguistics” 这 样 的 字眼 ， 但 
E = 


je, “and Computational Linguistics” 这 三 个 单词 是 用 特别 小 号 的 字母 排 


印 的 。 








这 说 明 ， 这 个 刊物 的 编者 对 于 “计算 语言 学 ?是 否 能 够 算 为 一 门 真正 
的 独立 的 学 科 还 没有 把 握 。 计 算 语言 学 刚刚 登 上 学 术 这 个 庄严 的 磺 向 的 
时 候 ， 还 带 有 “和 干 呼 万 唤 始 出 来 ， 犹 抱 琵 昔 半 和谈 面 ”那样 的 羞 深 ， 以 至 于 
刊物 的 编者 不 敢 用 和 Machine ”Translation 同 样 大 小 的 字母 来 排 印 它 。 当 
If Machine Translation 杂志 之 所 以 改名 ， 是 因为 在 1962 年 美国 成 并 了 “机 
器 翻译 和 计算 语言 学 学 会 ”(Association for Machine Translation and 
Computational Linguistics) ， 通 过 改名 可 以 使 杂志 的 名 称 与 学 会 的 名 称 
保持 一 致 。 











1964 年 ， 美 国 科学 院 成 立 了 语言 自动 处 理 咨 询 委员 会 (Automatic 
Language Processing Advisory Committee， 简 称 ALPAC 委 员 会 ) WA 
机 右 翻 译 的 研究 情况 ， 并 于 1966 年 11 月 公布 了 一 个 题 为 《语言 与 机 器 》 
的 报告 ， 简 称 ALPAC 报 告 E ”。 这 个 报告 对 机 器 翻译 采取 了 否定 的 态 
度 ， 报 告 宣称 :“ 目 前 尚 无 理由 大 力 文 持 机 器 翻译 。”; 这 个 报告 还 指 
出 ， 机 器 翻译 研究 过 到 了 难以 元 服 的 “语义 障碍 ”(semantic barrier) 。 
在 ALPAC 报 告 的 影响 下 ， 许 多 国家 的 机 器 翻译 研究 遭遇 低潮 ， 许 多 已 


经 建 并 起 来 的 机 器 翻译 研究 单位 遇 到 了 行政 上 和 经 费 上 的 困难 ， 在 世界 
范围 内 ， 机 副 翻 译 的 热 漳 突然 消失 了 ， 出 现 了 空前 银 条 的 局 面 。 





美国 语言 学 家 海 斯 (David Hays) 是 ALPAC 委 员 会 的 成 员 之 一 ， 并 
且 参 与 起 草 了 ALPAC 报 告 ， 他 在 报告 中 建议 ， 在 放弃 机 器 翻译 这 个 短 
期 的 工程 项 目的 时 候 ， 应 当 加 强 语 言 和 自然 语言 计算 机 处 理 的 基础 研 
究 ， 可 以 把 原来 用 于 机 器 翻译 研制 的 经 费 使 用 到 自然 语言 处 理 的 基础 研 
究 方 面 。 海 斯 把 这 样 的 基础 研究 正式 命名 为 Computational 
Linguistics (计算 语言 学 ) o MUA, RATT AW, “计算 语言 学 ”这 个 学 
科 名 称 最 早出 现 于 1962 年 ， 而 1966 年 才 在 美国 科学 院 的 ALPAC 报 告 中 
正式 得 到 学 术 界 的 承认 。 























1962 年 美国 成 立 了 “机 器 翻译 与 计算 语言 学 学 会 "， 每 年 开 一 次 会 
议 。1965 年 在 美国 纽约 成 并 了 国际 计算 语言 学 委员 会 (International 
Committee of Computational Linguistics， 简 称 ICCL ) ， 每 两 年 召开 一 次 
国际 会 议 ， 叫 做 COLING，COLING 第 一 任 主席 是 沃 古 瓦 ， 他 是 法 国 著 
名 数学 家 ， 担 任 法 国 格 勒 诡 布尔 大 学 应 用 数学 研究 所 自动 翻译 中 心 

(CETA) 主任 。 与 此 同时 ， 美 国 出 版 了 学 术 季 刊 《 美 国 计 算 语言 学 杂 
志 》 (American Journal of Computational Linguistics ) ， 后 改名 为 《 国 
际 计算 语言 学 杂志 》 (International Journal of Computational Linguistics 
) 。COLING 现 任 主席 是 斯 坦 福 大 学 教授 马丁 ' 凯 依 (Martin Kay) 。 











COLING 现 已 召开 了 二 十 二 届 。 各 届 的 时 间 地 点 如 下 : 


e 1965 New York 
e 1967 Grenoble 
e 1969 Stockholm 
e 1971 Debrecen 


e 1973 Pisa 

e 1976 Ottawa 

e 1978 Bergen 

e 1980 Tokyo 

e 1982 Prague《〈 中 国学 者 汉 志 伟 首 次 参加 COLING ) 
e 1984 Stanford 

e 1986 Bonn 

e 1988 Budapest 

e 1990 Helsinki 

e 1992 Nantes 

e 1994 Kyoto 

e 1996 Copenhagen 
e 1998 Montréal 

e 2000 Saarbruecken 
e 2002 Taipei 

e 2004 Geneva 

e 2006 Sydney 

e 2008 Manchester 
e 2010 Beijing 


我 国学 者 从 1982 年 起 就 参加 了 COLING 的 活动 ， 首 次 参加 的 中 国学 
者 是 本 书 作 者 。 本 书 作 者 在 该 会 议 上 用 法 文 发 表 论 文 Mémoire pour une 


tentative de traduction automatique multilangue de chinois en francais, 


anglais, japonais, russe et allemand È 。 


近年 来 ， 我 国 的 目 然 语 言 处 理 研究 很 活跃 ，1983 年 5 月 由 中 国 中 文 
信息 学 会 组 建 了 自然 语言 处 理 专业 委员 会 ， 该 专业 委员 会 主要 研究 机 器 





























翻译 。 中 国 中 文 信息 学 会 又 于 1987 年 6 月 组 建 了 计算 语言 学 专业 委员 
会 ， 接 着 ， 于 1988 年 6 月 召开 了 首届 计算 语言 学 学 术 会 议 ，1993 年 11 月 
召开 了 第 二 届 计 算 语 言 学 联合 学 术 会 议 ， 以 后 每 两 年 召开 一 次 。 我 国 的 
台湾 地 区 也 于 1990 年 4 月 成 立 了 台湾 计算 语言 学 学 会 。2010 年 第 23 届 
COLING 在 北京 有 召开， 来 自 世 界 各 地 的 近 700 位 计算 语言 学 研究 人 员 参 
加 了 这 个 盛会 ， 大 大 地 推动 了 我 国 的 计算 语言 学 和 自然 语言 处 理 研究 的 
发 展 。 





























自然 语言 处 理 不 仅 有 着 重大 的 学 术 意 义 ， 而 且 ， 它 对 社会 经 济 的 发 
展 也 有 着 现实 的 或 潜在 的 经 济 价值 。 当 前 ， 许 多 国家 对 自然 语言 处 理 更 
加 重视 ， 纷 纷 投资 。 仅 以 机 器 翻译 为 例 ，20 世 纪 末 期 ， 欧 洲 共 同体 为 了 
把 EUROTRAN 多 语言 机 器 翻译 系统 实用 化 ，5 年 内 投资 2800 万 美元 。 法 
国 制 定 了 一 个 ESOPE 机 器 翻译 计划 ， 用 于 ARIANE 机 器 翻译 系统 的 实用 
化 ， 投 资 5600 万 法 郎 。 日 本 对 机 器 翻译 的 专项 投资 为 140 亿 日 元 ( 约 相 
当 于 1 亿美 元 》。 

















我 国政 府 对 于 目 然 语言 处 理 技术 也 非常 重视 ， 投 入 了 大 量 的 经 费 。 





在 国家 重大 基础 研究 发 展 计划 973 项 目 中 ，1999 年 至 2003 年 科技 部 
首 批 立 项 的 重大 基础 研究 发 展 规划 项 目 “ 图 像 、 语 音 、 上 自然 语言 理解 与 
知识 挖掘 ”将 自然 语言 理解 列 为 重要 的 研究 内 容 。 














在 这 个 项 目的 文 持 下 ， 建 立 了 中 文 语言 数据 联盟 (Chinese 
Language Data Consortium， 人 简称 Chinese LDC) ， 挂 靠 在 中 国 中 文 信息 
学 会 ， 其 目标 是 建成 具有 完整 性 、 规 范 性 、 权 威 性 和 系统 性 的 通用 中 文 
语言 资源 库 和 中 文 信息 处 理 评测 体制 ， 为 中 文 信息 处 理 的 基础 研究 和 应 
用 研究 提供 支持 ， 促 进 中 文 信息 处 理 技术 的 发 展 。 目 前 ， 中 文 语言 数据 
联盟 有 会 员 单 位 70 多 个 ， 各 类 语言 资源 80 多 种 ， 其 中 ，30% 的 语言 资源 














对 会 员 免费 提供 ， 在 全 世界 范围 内 实现 了 中 文 语 言 数据 资源 的 共享 。 该 
联盟 自 2006 年 正式 运行 以 来 ， 每 天 都 有 专业 人 员 进 行 网 站 访问 和 电话 咨 
询 ， 已 经 共享 语言 资源 200 多 套 ， 授 权 评 测 单位 使 用 40 多 个 ， 在 自然 语 
言 处 理 中 发 挥 了 很 好 的 作用 。 





2004 年 科技 部 重大 基础 研究 发 展 项 目 规划 “数字 内 容 理解 的 理论 与 
方法 ”再 次 将 自然 语言 处 理 作为 重要 内 容 ， 其 目的 在 于 建立 大 规模 的 语 
料 库 、 知 识 库 和 数据 库 ， 作 为 语义 计算 (semantic computation) 的 基 
础 ， 在 信息 内 容 理解 (information content understanding) 的 计算 模型 与 
方法 方面 ， 研 究 信 息 内 容 理 解 的 基础 问题 ， 在 给 定 需 求 的 条 件 下 进行 语 
Mit; 在 信息 内 容 理解 的 关键 技术 和 应 用 方面 ， 研 究 不 恨 信息 的 过 滤 
和 多 媒体 信息 检索 等 国家 有 重大 需求 的 基础 应 用 技术 ， 建 立 计算 模型 和 
方法 的 验证 环境 。 








国家 863 计 划 也 投入 了 大 量 的 资金 用 于 自然 语言 处 理 技术 的 开发 。 
2002 年 的 重大 项 目 “ 奥 运 多 语言 智能 信息 服务 系统 关键 技术 及 示范 系统 
研究 “突出 以 人 为 本 的 信息 服务 ， 通 过 网 络 手 段 对 各 国 记 者 和 观众 提供 
综合 、 全 面 、 多 语种 、 可 定制 的 信息 服务 ， 使 得 任何 人 在 任何 时 间 和 任 
何 场合 ， 都 可 以 获取 奥运 有 关 的 信息 ， 从 而 通过 “科技 奥运 ”实现 了 “人 
文 奥运 ”的 目标 。 























国家 目 然 科学 基金 委员 会 也 文 持 目 然 语言 处 理 的 研究 ， 先 后 设立 了 
HWA. ME MAMA, DOCH REDE. aie. 
藏 语 、 维 召 尔 语 等 语种 语料库 建设 和 语义 分 析 等 基础 问题 ， 文 字 输 入 
法 、 机 咒 翻 译 、 目 动 文摘 等 应 用 问题 ， 对 于 目 然 语 言 的 词汇 、 句 子 、 语 
义 、 篇 章 等 方面 进行 了 有 效 的 探索 。1999 年 的 国家 自然 科学 基金 重点 项 
目 “ 汉 语 话语 翻译 关键 技术 研究 ”取得 了 具有 创新 意义 的 重要 成 果 ， 建 
立 了 国际 领先 的 多 语种 口语 对 照 语料库 ， 研 制 了 知 干 个 有 特色 的 实验 口 






































语 翻译 系统 和 多 语种 口语 翻译 平台 。2007 年 的 国家 自然 科学 基金 重点 项 
目 “ 融 合 语言 知识 与 统计 模型 的 机 器 翻译 方法 研究 “试图 将 基于 规则 的 
理性 主义 方法 和 基于 统计 的 经 验 主 义 方 法 有 效 地 结合 起 来 ， 提 高 机 器 翻 
译 的 质量 。 














国家 哲学 社会 科学 规划 办 公 室 也 立项 支持 自然 语言 处 理 研究 ， 设 立 
了 相应 的 社会 科学 基金 研究 项 目 。2003 年 立项 的 “计算 语言 学 方法 研究 
”， 总 结 了 国内 外 的 计算 语言 学 方法 ， 使 之 系统 化 ， 理 论 化 ， 有 具体 化 。 
由 于 方法 的 研究 是 目 然 语言 处 理 系统 〈 诸 如 机 需 翻 译 、 语 料 库 、 信 息 检 
Ay fe BHR. MADRE) 的 关键 问题 ， 这 项 研究 成 果 ， 对 于 各 种 类 
型 的 自然 语言 处 理 实用 系统 的 开发 ， 在 方法 上 具有 普遍 的 指导 意义 ， 对 
于 解决 我 国 当前 在 自然 语言 信息 处 理 中 的 理论 和 现实 问题 ， 具 有 重要 的 
推动 作用 。 这 个 诬 题 中 总 结 出 来 的 一 些 方法 已 经 运用 于 中 文 信息 处 理 的 
研究 ， 效 果 民 好 。 























可 以 看 出 ， 国 家 对 于 自然 语言 处 理 的 大 力 支 持 ， 促 进 了 我 国 自然 语 
言 处 理 的 发 展 。 国 家 在 我 国 目 然 语言 处 理 技术 的 研制 和 发 展 中 ， 起 了 举 
足 轻 重 的 作用 。 











目前 ， 我 国 的 上 自然 语言 处 理 已 经 取得 了 显著 的 成 绩 。 语 料 库 技术 得 
到 了 充分 的 发 展 ， 建 六 了 一 批 具 有 和 草 要 影响 的 语言 资源 亩 ， 和 面向 信息 处 
理 的 汉语 基础 研究 有 了 长 足 的 进展 ， 理 论 成 果 初 见 成 效 ， 应 用 技术 开发 
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我 国 开发 的 这 些 语言 资源 库 和 目 然 语 言 处 理 系统 中 ， 部 分 技术 已 经 
达到 或 者 基本 达到 实用 化 水 平 。 例 如 ， 各 种 类 型 的 汉语 语料库 、 现 代 汉 
语 语法 信息 词典 、 知 网 、 汉 字 输 入 系统 、 汉 字 激 光 排 版 系统 、 机 器 翻译 
系统 、 搜 索引 擎 等 。 





许多 新 的 研究 方向 不 断 出 现 ， 在 实际 应 用 的 驱动 下 ， 目 然 语言 处 理 
技术 不 断 与 各 种 新 技术 相 结合 ， 开 发 出 越 来 越 多 的 实用 技术 。 例 如 ， 网 
络 内 容 管理 和 监控 的 研究 ， 不 仅 与 目 然 语言 处 理 技术 有 关 ， 而 且 与 网 络 
技术 、 情 感 计算 、 图 像 理 解 等 技术 有 关 ， 语音 目 动 翻译 技术 涉及 到 机 右 


翻译 、 语 音 识 别 、 语 首 合成 、 语 首 通 讯 等 多 种 技术 。 








自然 语言 处 理 有 着 明确 的 应 用 目标 ， 语 音 合成 、 语 音 识 别 、 信 息 检 
索 、 信 息 抽 取 、 文 本 分 类 、 文 本 数据 挖掘 、 自 动 文摘 、 机 器 翻译 等 ， 都 
是 自然 语言 处 理 的 重要 应 用 领域 。 由 于 现实 的 自然 语言 极为 复杂 ， 不 可 
能 直接 作为 计算 机 的 处 理 对 象 ， 为 了 使 现实 的 自然 语言 成 为 可 以 由 计算 
机 直接 处 理 的 对 象 ， 在 这 众多 的 应 用 领域 中 ， 我 们 都 需要 根据 处 理 的 要 
求 ， 把 自然 语言 处 理 抽 象 为 一 个 “问题 ”(problem) ， 再 把 这 个 问题 在 
语言 学 上 加 以 “形式 化 ”(formalism) ， 建 立 语言 的 “形式 模型 ”(formal 
model) ， 使 之 能 以 一 定 的 数学 形式 ， 严 密 而 规整 地 表示 出 来 ， 并 且 把 
这 种 严密 而 规整 的 数学 形式 表示 为 “算法 ”(algorithm) ， 建 并 自然 语言 
处 理 的 “计算 模型 ” (computational model) ， 使 之 能 够 在 计算 机 上 实 
现 。 在 自然 语言 处 理 中 ， 算 法 取决 于 形式 模型 ， 形 式 模型 是 自然 语言 计 
算 机 处 理 的 本 质 ， 而 算法 只 不 过 是 实现 形式 模型 的 手段 而 已 。 因 此 ， 这 
种 建 并 语言 形式 模型 的 研究 是 非常 重要 的 ， 它 应 当 属 于 自然 语言 处 理 的 
基础 理论 研究 。 









































由 于 自然 语言 处 理 的 复杂 性 ， 这 样 的 形式 模型 的 研究 往往 是 一 
个 “ 强 不 适 定 问题 ”(strongly ill-posed problem) ， 也 就 是 说 ， 在 用 形式 
模型 建立 算法 来 求解 自然 语言 处 理 的 问题 时 ， 往 往 难 以 满足 问题 解 
的 “存在 性 ”“ 唯 一 性 * 和 “稳定 性 ”的 要 求 ， 有 时 是 不 能 满足 其 中 的 一 
条 ， 有 时 甚至 三 条 都 不 能 满足 。 因 此 ， 对 于 这 样 的 强 不 适 定性 问题 求 
解 ， 应 当 加 入 适当 的 “约束 条 件 " Cconstraint conditions) ， 使 问题 的 一 








部 分 在 一 定 的 范围 内 变 成 * 适 定 问 题 ”(well-posed problem) ， 从 而 顺利 
地 求解 这 个 问题 。 





目 然 语 言 处 理 是 一 个 多 边缘 的 交叉 学 科 ， 因 此 ， 我 们 可 以 通过 计算 
机 科学 、 语 言 学 、 心 理学 、 认 知 科 学 、 人 工 智 能 等 多 学 科 的 通力 合作 ， 
把 人 类 知识 的 威力 与 计算 机 的 计算 能 力 结合 起 来 ， 给 目 然 语 言 处 理 的 形 
式 模 型 提供 大 量 的 、 丰 富 的 “约束 条 件 ?， 从 而 解决 自然 语言 处 理 的 各 种 
困难 问题 。 上 自然 语言 处 理 这 个 学 科 的 边缘 性 、 交 叉 性 的 特点 ， 为 解决 这 
样 的 “ 强 不 适 定 问 题 * 提 供 了 有 力 的 手段 ， 我 们 有 可 能 把 自然 语言 处 理 形 
式 模 型 的 研究 这 个 “ 强 不 适 定 问题 * 变 成 “ 适 定 问题 "这 是 我 们 在 研究 自 
然 语言 处 理 的 形式 模型 的 时 候 ， 值 得 特别 庆幸 的 ， 也 是 应 该 特别 注意 
的 。 














时 在 自然 语言 处 理 这 个 学 科 出 现 之 前 ， 语 言 计 算 研 究 的 先驱 者 们 就 
开始 探索 自然 语言 的 形式 模型 。 例 如 ， 马 尔 可 夫 链 (Markov chain) , 
FREE (Zipfs Law) ， 商 农 (Shannon) XF” Centropy) 的 研 
25, EAP CY. Bar-Hillel) 的 范畴 语法 ， 哈 里 斯 CZ. Harris) 的 语言 串 
分 析 法 ， 库 拉 金 娜 CO.C.Kynaruga) 的 语言 集合 论 模 型 等 。 马 尔 可 夫 
CA. A. Markov) 等 具有 远见 日 识 的 学 者 很 早 束 从 形式 描述 的 角度 来 研 
完 自然 语言 ， 开 自然 语言 处 理 形式 模型 (Formal models for NLP) 研究 
的 先河 。 

















随 痢 目 然 语言 处 理 研 究 的 有 发展， 一 系列 的 形式 模型 开始 建立 起 来 。 
这 些 形式 模型 大 致 可 以 归纳 为 如 下 几 种 多 ; 





1. SEP RTE SG MITE AF SU: 主要 有 和 天 姆 斯 基 的 短语 络 构 语 
法 ， 递 归 转 移 网 络 和 扩充 转移 网 络 ， 目 底 癌 上 分 析 法 与 自 顶 向 下 分 析 
法 ， 通 用 句法 生成 器 和 线 图 分 析 法 ，Earley 算 法 ， 左 角 分 析 法 ，CKY 算 








法 ，Tomita 算 法 ， 乔 姆 斯 基 的 管辖 一 约束 理论 与 最 简 方案 ， 尤 喜 CA. 


Joshi) 的 树 邻 接 语法 等 。 
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2. 基于 合 一 运算 的 形式 模型 : 主要 有 卡 普 兰 CR. M. Kaplan) 的 词 
汇 功 能 语法 ， 马 丁 ' 凯 依 的 功能 合 一 语法 ， 盖 效 达 (G. Gazdar) 的 广义 
短语 结构 语法 ， 锡 伯 CShieber) 的 PATR， 班 拉 德 (C. Pollard) 的 中 心 
语 张 动 的 短语 结构 语法 ， 佩 瑞 拉 CF. Pereira) 的 定子 句 语法 等 。 





3. 基于 依存 和 配 价 的 形式 模型 : 主要 有 泰 尼 埃 CL. Tesniére) 的 依 
存 语法 ， 德 国学 者 的 配 价 语法 ， 哈 德 杰 (Hudson) 的 词语 法 等 。 








4. 基于 格 语法 的 形式 模型 : 主要 有 菲 尔 默 〈C. J. Fillmore) 的 格 语 
法 和 框架 网 络 。 


5. 基于 词汇 主义 的 形式 模型 : 主要 有 格 罗 斯 CM. Gross) 的 词汇 语 
法 ， 斯 里 托 〈Sleator) MAME (Temperley) 的 链 语 法 ， 词 汇 语 义学 ， 
词 网 (WordNet) 等 。 


6. 基于 概率 和 统计 的 形式 模型 : 主要 有 N- 元 语法 ， 隐 马尔 可 夫 模 
型 (Hidden Markov Model， 人 简称 HMM) , EARRA, KAFEN 
(Condition Random Field， 简 称 CRF) ， 和 查 尼 阿 克 〈Charniak) 的 概率 
上 下 文 无 关 语法 和 词汇 化 的 概率 上 下 文 无 关 语 法 ，Bayes 公 式 ， 动 态 规 
划算 法 ， 噪 声 信道 模型 ， 最 小 编辑 距离 算法 ， 雇 策 树 模型 ， 加 权 自 动 
机 ，Viterbi 算 法 ， 向 前 算法 等 。 





7. 语义 自动 处 理 的 形式 模型 : 主要 有 义 素 分 析 法 、 语 义 场 理论 ， 语 
义 网 络 理论 ， 蒙 塔 上 古 的 蒙 塔 古 语法 ， 威 尔 元 斯 (Y. A. Willk 的 优选 语 
MF, Hw CR. C. Schank) 的 概念 依存 理论 ， 梅 里 楚 元 《Mel'chuk) 的 
意义 一 文本 理论 等 。 





8. 语 用 自动 处 理 的 形式 模型 : 主要 有 曼 (Mann) 和 汤姆 生 
(Thompson) 的 修辞 结构 理论 ， 文 本 连贯 中 的 常识 推理 技术 等 。 


我 们 在 注意 自然 语言 处 理 的 应 用 研究 的 同时 ， 蝶 等 加 强 自然 语言 处 
理 的 形式 模型 的 研究 ， 为 世界 的 自然 语言 处 理 形式 模型 的 研究 ， 做 出 应 
有 的 页 献 。 








自然 语言 处 理 像 一 股 强劲 的 东风 吹 进 了 传统 的 理论 语言 学 的 许多 部 
门 ， 使 这 些 部 门面 目 一 新 。 








在 传统 的 语音 学 领域 内 ， 早 就 进行 了 语音 合成 器 的 研制 工作 。 


出 生 在 斯 洛 伐 元 (当时 属于 匈牙利 王国 ) EAC Ae ME 
(Wolfgang von Kempelen) 于 1769 年 在 维也纳 为 玛 利 亚 . 泰 莱 撒 (Maria 
Theresa) 女 旺 制造 了 一 个 叫做 图 尔 元 的 机 器 (Mechanical Turk) 。 


图 尔 元 机 是 一 个 会 下 象棋 的 自动 机 占 ， 它 的 前 端 是 一 个 布 满 了 齿轮 
的 大 木 箱 ， 在 这 个 大 木 箱 的 后 面 ， 坐 着 一 个 机 器 人 ， 这 个 机 器 人 在 下 和 象 
棋 的 时 候 ， 会 用 自己 的 机 械 手 来 移动 棋子 。 数 十 年 间 ， 这 个 图 尔 克 机 在 
欧洲 和 美国 进行 巡回 比赛 ， 据 说 曾经 打败 了 法 国 皇 帝 拿破仑 ， 甚 至 还 和 
英国 数学 家 巴 贝 奇 (Charles Babbage) 做 过 对 弈 ， 名 噪 一 时 。 
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图 1.2 图 尔 克 机 
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但 是 ， 后 来 发 现 ， 这 竟然 是 一 场 恶 作 剧 。 原 来 这 个 图 尔 克 机 的 全 部 
动作 都 是 由 藏 在 大 木 箱 内 部 的 一 个 会 下 象棋 的 活生生 的 人 控制 着 的 。 不 
然 ， 这 个 图 尔 克 机 也 许可 以 看 成 是 人 工 智能 最 早 的 一 个 成 就 呢 ! 








肯 佩 悉 因 此 而 声名 狼 条 ， 不 过 ， 他 倒 确 实 具有 发 明 的 天 才 。 在 1769 
年 至 1790 年 间 ， 他 还 做 了 另外 一 件 举世 瞩目 的 大 事 : 发 明了 第 一 台 能 够 
合成 完整 句子 的 语音 合成 器 。 他 的 这 个 装置 包括 一 个 模拟 肺 部 的 鼓 风 
器 ， 一 个 橡胶 制 成 的 嘴 ， 一 个 描 子 孔 ， 一 个 模拟 声带 的 算 片 ， 用 于 产生 
摩擦 首 的 各 种 不 同 的 哨子 ， 以 及 用 于 给 塞音 提供 喷 出 气流 的 一 个 附加 的 
小 鼓 风 器 。 这 种 语音 合成 器 实际 上 是 一 个 共鸣 箱 。 操 作 员 用 双手 移动 操 
作 杆 来 打开 或 关闭 鼻子 孔 ， 
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调节 有 弹性 的 皮 制 “声腔 >?， 就 可 以 产生 各 种 不 同 的 元 音 和 辅音 。 受 
当时 技术 水 平 的 限制 ， 肯 佩 积 发 明 的 这 人 台 语 音 合 成 器 是 用 木头 或 育 间 来 
制造 的 ， 材 料 虽 然 还 比较 简陋 ， 却 开 了 语音 合成 这 项 技术 的 先河 。 


1939F, ZF CH. Dudler) 就 在 纽约 的 国际 博览 会 上 展 出 了 "说 
话机 ”(talking machine) ， 这 人 台 说 话机 叫做 Voder， 一 时 引起 受 动 ， 这 
是 实验 语音 学 研究 的 重要 成 果 。 
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图 1.4 ”Voder 说 话机 




















两 百 多 年 过 去 之 后 ， 我 们 不 再 使 用 木 尖 或 皮 章 来 制造 语 首 合成 器 
了 ， 我 们 也 不 再 需要 人 来 杀 目 担任 操作 员 了。 现代 语音 合成 (speech 
synthesis) 的 任务 就 是 使 用 计算 机 从 文本 产生 语音 ， 把 可 视 的 书面 文本 
转换 成 可 听 的 语音 ， 所 以 ， 语 音 识 别 又 叫做 “文本 一 语音 转换 ”(text-to- 
speech conversion) 或 简称 “ 文 语 转换 ”(TTS) 。 这 样 的 语音 合成 是 用 计 
算 机 来 进行 的 ， 与 当年 上 衣 佩 和 棱 的 语音 合成 器 不 可 同日 而 语 。 


近 30 年 来 ， 已 经 研制 出 一 大 批 试 验 性 的 语音 合成 项， 它们 能 够 自动 
地 把 语 首 频谱 转化 为 语 首 。 语 首 合 成 是 一 件 非常 困难 的 工作 ， 因 为 语音 
频谱 提供 出 来 的 信息 实在 太 多 了 ， 正 如 着 名 语 首 学 家 范 特 (G. M. 
Fant〉 所 说 的 ， 人 人们 很 容易 淹没 在 不 了 解 其 意义 的 各 种 声学 特征 细节 的 
汪洋 大 海 乙 中， 不 过 ， 由 于 这 种 语音 合成 器 的 研究 不 仅 有 实际 用 途 ， 还 
可 以 进一步 揭示 人 类 言语 产生 的 机 制 ， 并 可 作为 研究 言语 的 产生 和 感知 
"TA. 




















美国 哈 斯 金 〈Hanskins) KEE, URSUS zi. MEAL al 
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院 、 中 国 科 学 技术 大 学 都 进行 过 语音 合成 的 研究 。 语 音 合成 已 经 进入 实 
用 化 阶段 。 我 国 在 语音 合成 器 的 研 完 方面 已 取得 很 大 成 绩 ， 可 以 实时 地 
合成 汉语 普通 话 的 语音 ， 有 的 项 目 达到 了 世界 水 平 。 语 音 合成 技术 已 经 
得 到 了 广泛 的 应 用 。 








现代 语音 合成 有 着 多 种 多 样 的 、 非 常 广泛 的 用 途 。 


自 先 ， 语 音 合成 器 可 以 用 于 基于 电话 的 会 话 乔 能 代理 系统 
(conversation agent system) 中 ， 这 种 智能 代理 可 以 与 人 进行 对 话 和 交 
谈 。 目 前 国外 的 会 话 乔 能 代理 系统 已 经 实用 化 了 。 


其 次 ， 语 音 合成 器 还 可 以 在 那些 不 是 会 话 的 场合 用 来 对 人 说 话 ， 例 
如 ， 用 语音 合成 器 来 给 盲人 大 声明 读 ， 用 语音 合成 右 来 做 视频 游戏 ， 用 
语 首 合成 器 来 做 儿童 玩具 。 





最 后 ， 语 音 合成 还 可 以 用 于 帮助 那些 神经 受 损 的 病人 说 话 。 例 如 ， 
英国 凋 名 天 体 物 理学 家 霍金 (Steven Hawking) Hi T 4 SMERE a nE 
MRI CALS) 而 失去 了 讲话 的 能 力 ， 现 代 语 音 合 成 技术 给 他 帮 了 


大 忙 ， 他 可 以 通过 打字 把 信息 传递 给 语音 合成 器 ， 并 让 语音 合成 器 说 出 
单词 ， 以 此 来 同人 们 交谈 。 这 样 ， 尽 管 他 身 患 绝症 ， 仍 然 可 以 在 剑桥 大 
学 的 讲台 上 侃侃 而 谈 ， 给 学 生 们 讲课 。 


目前 最 先进 的 语音 合成 系统 可 以 在 各 种 不 同 的 输入 环境 下 产生 优质 
的 自然 语音 ， 尽 管 这 样 的 语音 合成 系统 产生 出 来 的 声音 还 显得 有 些 不 
板 ， 并 且 只 能 局 限于 它们 所 使 用 的 那些 语音 的 范围 之 内 ， 但 是 ， 这 种 技 
术 已 经 显示 出 诱 人 的 应 用 前 景 。 











语音 自动 分 析 的 实质 是 用 计算 机 把 属于 声学 领域 的 连续 的 物理 言语 
言 号 变换 为 属于 抽象 的 语言 学 领域 的 离散 的 描述 。 奥 登 〈K. W. Otten) 
曾 指出 ， 语 音 分析 要 注意 四 个 主要 问题 : 《1) 选择 恰当 的 语言 单元 ， 
(2) 把 连续 的 信号 转换 为 离散 的 信号 ，《〈3) 研究 言语 声学 特征 的 可 变 
VE, (4) 研究 言语 的 元 余 度 。 








语音 分 析 的 共 体 应 用 就 是 语音 识别 。 国 外 已 经 研制 成 DRAGON、 
HEARSAY、HARRY、HWIM 等 试验 性 的 贡 语 语音 识别 系统 系统 。 我 国 
在 语音 识别 方面 ， 主 要 围绕 着 特定 说 话 者 大 词 表 语 音 识别 系统 和 非特 定 
说 话 者 小 词 表 语音 识别 系统 展开 工作 ， 已 研制 出 一 批 实用 化 的 系统 。 安 
徽 科 大 讯 飞 公司 推出 的 “开口 上 网 ”语音 识别 系统 ， 只 要 用 普通 话 口 呼 互 
联网 的 网 页 地 址 ， 就 可 以 顺利 地 打开 相应 的 网 页 。 











现代 的 语音 实验 室 已 经 用 计算 机 装备 起 来 ， 目 然 语 言 处 理 技术 使 主 
老 的 语音 学 走 上 了 现代 化 的 道路 。 








自然 语言 处 理 还 对 传统 的 形态 学 Cmorphology) 提出 了 新 问题 。 在 
机 器 翻译 和 人 机 对 话 的 研究 中 ， 都 要 对 单词 进行 形态 分 析 ， 这 就 促进 了 
形态 学 的 研究 。 





针对 目 然 语 言 处 理 的 形态 学 研究 主要 解决 两 个 问题 : 词 例 还 原 
(tokenization) 和 词 目 还 原 (lemmatization ) 。 








“ 词 例 ”(token) 是 文本 中 独立 的 词汇 单元 。 所 谓 “ 词 例 还 原 ”， 就 是 
自动 地 把 句子 中 的 单词 作为 独立 的 词 例 切 分 出 来 。 英 语文 本 中 的 单词 一 
般 是 界限 分 明 的 ， 单 词 与 单词 之 间 存 在 空白 ， 单 词 的 切 分 不 像 汉语 书面 
文本 那样 困难 。 但 是 ， 汉 语 书 面 文本 是 不 分 词 的 ， 词 与 词 之 间 的 界限 被 
济 没 在 连续 的 汉字 文本 之 中 ， 汉 语 书面 文本 的 “自动 切 词 ”成 为 了 汉语 目 
然 语 言 处 理 的 一 个 瓶颈 问题 。 














词 目 还 原 (lemmatization〉 的 目的 是 把 文本 中 实际 存在 的 变形 词 还 
原 成 原形 词 ， 以 便 让 计算 机 查 词典 。 


传统 的 形态 学 研究 都 要 区 分 屈折 (inflection) 和 派生 
(derivation) 。 如 英语 的 amend/amended 〈 改 善 ) 是 屈折 ， 
amend/amendment 是 派生 ， 前 者 作为 词 形 变化 看 待 ， 后 者 作为 构词法 问 
题 看 待 。 然 而 ， 对 于 计算 机 来 说 ， 也 可 以 不 作 这 样 的 区 分 。 例 如 ， 在 形 
态 分 析 的 时 候 ， 可 以 把 amended 和 amendment 都 归 入 amend 进 行 统一 的 处 
理 。 一 个 自动 形态 分 析 方 案 可 包括 一 部 词 干 词典 和 一 套 描述 词 形变 化 和 
构 词 的 规则 系统 ， 其 中 既 有 派生 ， 也 有 屈折 。 这 样 ， 在 分 析 时 ， 给 出 词 
干 ， 计 算 机 就 可 以 自动 地 列举 出 它 的 所 有 的 变化 形态 ， 而 给 出 一 个 变化 
形式 ， 计 算 机 束 可 以 自动 地 把 它 切 分 为 词 干 、 词 级 和 词尾 。 男 外 ， 还 要 
考虑 一 些 特殊 的 现象 。 如 perform， give, go 等 动词 的 过 去 时 形式 分 别 为 
performed, gave, went, 44icityl] & Be XcitiestE Zz fiis] ZR Ja, We 
把 词 干 的 形式 作 某 些 改变 ， 编 写 词 法 分 析 程 序 时 ， 应 该 设法 使 这 些 各 不 
相同 的 情况 条 理化 。 在 机 器 翻译 欣欣 同 荣 的 50 年 代 末 和 70 年 代 初 ， 学 者 
们 曾经 对 俄语 、 德 语 这 样 一 些 届 折 变 化 丰富 的 语言 进行 过 严格 的 词法 分 
析 ， 编 制 过 相当 精细 的 自动 形态 分 析 规 则 。 目 前 ， 在 机 器 翻译 和 人 机 对 











话 中 的 目 动 形态 分 析 技 术 已 经 十 分 成 熟 了 。 


计算 机 还 要 求 区 分 各 种 同形 现象 ， 例 如 ， 瑞 语 frighten 中 的 -en 要 与 
oven 中 的 -en 区 别 开 来 ，reaped 收获) 中 的 -ed 要 与 reed( 户 苇 ) 中 的 -ed 
区 别 开 来 。 





这 样 的 研究 ， 就 是 自然 语言 处 理 中 的 “ 词 目 还 原 ”(lemmatization ) 


问题 。 





汉语 书面 文本 的 形态 分 析 ， 主 要 是 “自动 切 词 * 和 l“ 自 动 标注 >。 这 些 
问题 至 今 还 没有 很 好 解决 。 





例如 ， 如 果 我 们 想 碍 询 “ 和 服 ? 而 上 互联 网 《Web) 进行 查询 ， 可 是 
碍 询 结果 往往 是 





“工作 方法 和 服 务 态度 ” 
“REMAR 装 ”。 


由 于 目 动 切 词 的 错误 ， 我 们 往往 得 不 到 所 需要 的 结果 。 


汉语 书面 文本 的 目 动 标注 ， 结 有 果 也 不 理想 。 下 面 是 2008 年 汉语 词类 
标注 的 测试 结 


测试 集 规模 
语料库 名 称 ( 词 次 数 ) 基 线 最 佳 封闭 测试 
香港 城 大 CITYU 184 314 84. 25 89.51 
台湾 “ 中研院”CKIP 91 071 88.61 92. 95 
宾 州 树 库 CTB 59 955 86. 09 94. 28 
教育 部 语 用 所 NCC 102 344 9.59 95.41 


北京 大 学 PKU 156 407 88.09 94. 50 


图 1.5 ”汉语 词类 标注 的 测试 结果 (2008) 





从 图 中 可 以 看 出 ， 最 佳 的 封闭 测试 结果 才 95.41%， 仍 然 存 在 很 多 问 


题 需要 进一步 研究 。 


由 此 可 见 ， 自 然 语 言 处 理 的 发 展 ， 对 传统 的 形态 学 研究 提出 了 严峻 
的 挑战 。 





目 然 语 言 处 理 对 于 传统 的 句法 学 冲击 最 大 ， 各 种 立足 于 上 自然 语言 目 
动 处 理 的 句法 分 析 理 论 和 方法 犹如 雨后春笋 应 运 而 生 ， 形 成 了 百花 齐 放 
的 局 面 。 











在 机 需 翻 译 研究 的 早期 ， 苏 联 数学 家 库 拉 金 娜 


就 用 集合 论 方法 建立 了 俄语 句法 的 数学 模型 ， 精 确 地 定义 了 一 些 语 
法 概念 ， 这 一 模型 成 为 了 苏联 科学 院 数学 研究 所 和 语言 研究 所 联合 研制 
的 法 俄 机 器 翻译 系统 的 理论 基础 。 


著名 数理 逻辑 学 家 巴 希 勒 提出 了 范畴 语法 (category grammar) , 
建立 了 一 套 形式 化 的 句法 类 型 和 演算 规则 ， 通 过 有 穷 步 又 ， 可 以 判断 一 
个 句子 是 否 合乎 语法 。 这 些 ， 都 大 大 地 推动 了 传统 句法 分 析 方 法 同 精 密 
化 、 算 法 化 的 方向 发 展 。 





乔 姆 斯 基 的 形式 语言 理论 是 影响 最 大 的 早期 计算 语言 学 的 句法 理 
论 。 乔 姆 斯 基 定 义 了 0 型 语法 、 上 下 文 无 关 语 法 、 上 下 文 有 关 语 法 和 正 
则 语法 四 种 类 型 的 形式 语法 。 其 中 的 上 下 文 无 关 语法 又 叫做 短语 结构 语 
法 (Phrase Structure Grammar， 简 称 PSG) 。 这 种 短语 结构 语法 广泛 地 
应 用 于 自然 语言 的 自动 分 析 和 生成 中 。 但 是 ， 人 们 不 久 束 发 现 ， 短 语 结 
构 语 法 的 分 析 能 力 不 高 ， 分 析 时 难以 区 分 大 量 的 歧义 句子 ， 短 语 结 构 语 








法 的 生成 能 力 过 强 ， 往 往 会 生成 大 量 的 不 合 语法 的 句子 。 就 是 乔 姆 斯 基 
本 人 ， 也 认为 短语 结构 语法 不 能 充分 地 描述 自然 语言 。 于 是 他 提出 转换 
语法 来 克服 短语 结构 语法 的 这 些 弱点 ， 后 来 转换 语法 逐渐 发 展 成 为 转换 
生成 语法 。 不 过 ， 这 种 生成 转换 语法 的 分 析 效 率 也 不 高 ， 并 没有 在 实际 
的 自然 语言 处 理 系统 中 受到 欢迎 。 由 于 短语 结构 语法 结构 清晰 ， 易 于 操 
作 ， 计 算 语言 学 的 学 者 们 抛弃 了 转换 生成 语法 ， 又 转向 短语 结构 语法 ， 
于 是 出 现 了 各 种 增强 的 短语 结构 语法 。 例 如 ， 扩 充 转 移 网 络 
(Augmented Transition Network， 简 称 ATN) 。ATN 的 表层 结构 分 析 和 
深层 结构 生成 是 同时 进行 的 。 


























20 世 纪 60 年 代 后 期 ， 查 斯 特 里 (Chastellier〉 把 程序 设计 语言 的 W- 
语法 引进 了 自然 语言 处 理 中 ， 他 证 实 了 英语 和 法 语 的 转换 语法 都 可 以 通 
过 这 样 的 W- 语 法 来 重 写 。 








美国 语言 学 家 布 列 斯 南 (J. Bresnan) 主张 建立 面向 词汇 的 非 转换 的 
语法 ， 她 和 卡 普兰 一 起 ， 于 1983 年 提出 了 词汇 功能 语法 (Lexical 
Functional Grammar, faj#KLFG) 。 马 丁 . 凯 依 于 1983 年 提出 了 “ 合 一 语 
ik" (Unification Grammar， 简称 UG) ， 于 1985 年 提出 了 “功能 合 一 语 
ik" (Functional Unification ”Grammar， 简 称 FUG) > M245, WA 
(E. Klein) ~ Wi (I. Sag) 和 普 鲁 姆 (G. Pullum) 等 人 于 1985 年 提出 
了 “广义 短语 结构 语法 ”(Generalized Phrase Structure Grammar， 简 称 
GPSG) 。 珀 拉 德 〈C. Pollard) 于 1984 年 在 博士 论文 中 提出 了 “中 心 词语 
iX (Head Grammar) ”，1985 年 又 和 同事 们 一 起 提出 了 “中 心 词 驱 动 的 短 
语 结构 语法 CHead-driven Phrase Structure Grammar， 简 称 HPSG) ”。 这 
些 语法 都 采用 复杂 特征 结构 来 改进 短语 结构 语法 ， 采 用 合 一 运算 来 改进 
传统 的 集合 运算 ， 从 而 有 效 地 殉 服 了 短语 结构 语法 的 缺点 ， 保 持 了 短语 
结构 语法 的 优点 。 








理论 语言 学 中 的 层次 分 析 法 实质 上 就 是 短语 结构 语法 ， 因 此 ， 短 语 
结构 语法 在 计算 机 分 析 和 生成 目 然 语言 时 出 现 的 各 种 问题 ， 在 层次 分 析 
法 中 也 同样 是 存在 的 。 上 述 的 这 些 旨 在 改进 短语 结构 语法 的 目 然 语言 处 
理 理论 ， 都 带 有 很 强 的 可 操作 性 ， 具 有 强烈 的 方法 论 色彩 ， 必 定 会 有 助 
于 理论 语言 学 中 广泛 使 用 的 层次 分 析 法 的 改进 和 完善 。 在 这 方面 ， 我 们 
应 该 提倡 理论 语言 学 家 和 目 然 语言 处 理 专家 进行 经 常 的 对 话 ， 互 相 学 习 
对 方 的 长 处 ， 共 同 来 解决 短语 结构 语法 在 应 用 中 出 现 的 各 种 问题 。 














20 世 纪 60 年 代 出 现 了 高 级 程序 设计 语言 ， 使 计算 机 工作 者 从 繁琐 的 
手 编程 序 的 沉重 劳动 中 解放 出 来 ， 与 此 同时 ， 学 者 们 提出 了 这 种 高 级 程 
序 语言 的 形式 描述 ， 即 巴 库 斯 一 瑞 尔 范 式 CBacus-Naur Normal Form, 
简称 BNF〉。 后 来 发 现 ， 乔 姆 斯 基 提 出 的 上 下 文 无 关 语 法 恰好 与 巴 库 斯 
一 碧 尔 范式 等 价 ， 它 们 的 数学 形式 在 实质 上 是 完全 一 致 的 ， 于 是 上 下 文 
无 天 语法 和 巴 库 斯 一 责 尔 范式 在 数学 上 获得 了 高 度 的 统一 。 弄 姆 斯 基 在 
语言 学 上 的 创造 性 工作 引起 了 计算 机 科学 家 的 广泛 注意 ， 由 于 这 种 在 数 
学 上 的 高 度 的 一 致 性 ， 乔 姆 斯 基 的 形式 语言 理论 成 为 了 计算 机 科学 的 基 
石 之 一 ， 推 动 了 计算 机 科学 的 发 展 。 








作为 人 文科 学 的 理论 语言 学 竟然 能 够 对 于 作为 自然 科学 的 计算 机 科 
学 的 发 展 取 到 如 此 巨大 的 作用 ， 这 在 科学 史上 和 是 十 分 罕见 的 。 


还 有 一 种 高 级 程序 语言 叫 ALGOL 60， 这 是 一 种 用 于 科学 计算 的 程 
序 语言 ，ALGOL 60 公 布 不 入， 人 们 在 使 用 中 发 现 了 它 存在 攻 义 性 
Cambiguity) ， 于 是 计算 机 科学 家 们 纷纷 寻找 机 械 的 办 法 以 便 判 断 一 种 
程序 语言 是 否 具 有 歧义 性 ， 为 此 绥 尽 脑汁 。 后 来 ， 乔 姆 斯 基 从 理论 上 证 
明 ， 一 个 任意 的 上 下 文 无 关 语 法 是 否 具 有 上 层 义 性 的 问题 是 不 可 判定 的 。 
由 于 上 下 文 无 关 语 法 与 巴 库 斯 一 玉 尔 范式 等 价 ， 而 ALGOL 60 的 形式 摘 
述 正 是 巴 库 斯 一 瑞 尔 范式 ， 因 此 ， 这 种 程序 设计 语言 是 否 有 歧义 性 的 问 














题 也 是 不 可 判定 的 。 乔 姆 斯 基 有 力 地 回答 了 计算 机 科学 中 的 这 一 重大 理 
论 问题 ， 吸 引 了 许多 计算 机 科学 家 来 关心 理论 语言 学 问题 。 





近年 来 ， 依 存 语法 在 自然 语言 处 理 中 得 到 越 来 越 多 的 关注 。 中 国 传 
媒 大 学 树 库 研究 团队 使 用 依存 语法 (Dependency Grammar) 来 进行 句子 
的 自动 剖析 ， 可 以 揭示 句子 中 的 依存 关系 ， 进 而 可 以 构造 出 依存 网 络 ， 
加 深 我 们 对 于 句子 中 各 种 成 分 之 间 人 句法 和 语义 关系 的 认识 。 











下 面 是 汉语 句子 “约翰 在 桌子 上 放 了 三 本 书 ” 的 依存 树 〈 上 图 表示 句 
法 关系， 下 图 表示 语义 关系 ): 


Pa 
“yen 在 果子 b dx T = KR 


约 办 在 桌子 上 X 了 三 本 E 
图 1.6 ”依存 树 
由 “约翰 在 果子 上 放 了 三 本 书 半 书 的 封面 卓 了 ”学 生 读 过 那 一 本 有 
趣 的 书 ” 等 句子 的 依存 树 可 以 构造 出 如 下 的 依存 网 络 〈 左 图 为 句法 依存 
网 络 ， 右 图 为 语义 依存 网 络 ) : 





LAR 
图 1.7 依存 网 络 


根据 中 央 电 视 台 “新 闻 联播 "语料库 中 的 句子 ， 可 以 构造 出 如 下 的 依 
存 网 络 : 





图 1.8 《新 闻 联 播 》 语 料 库 构 成 的 依存 网 络 


我 国学 者 刘海 涛 、 胡 凤 国 的 研究 表明 ， 汉 语 的 复杂 网 络 〈Complex 


Net) 是 无 标 度 〈scale-free) 的 小 世界 网 络 (small world) 。 这 些 的 研究 
成 果 在 Bulletin of Physics 〈“《 科 学 通报 》) 等 自然 科学 杂志 上 发 表 ， 引 
起 自然 科学 界 ， 特 别 是 物理 学 界 的 关注 。 





20 世 纪 70 年 代 以 来 ， 国 外 建立 了 一 些 立 足 于 语义 的 上 自然 语言 理解 系 
统 ， 使 长 期 不 受 重 视 的 语义 学 得 到 了 发 展 ， 目 然 语言 处 理 也 影响 到 了 语 
义学 方面 。 





近 几 十 年 来 ， 茶 些 语言 学 家 认为 ， 语 义学 不 应 该 是 语言 学 的 一 个 分 
支 ， 他 们 只 关心 语言 的 形式 研究 ， 而 把 语义 的 研究 推 给 哲学 或 其 他 学 科 
来 进行 。 但 是 ， 随 着 机 融 翻 译 和 上 自然 语言 理解 研究 工作 的 进展 ， 再 加 上 
语言 学 理论 论战 的 需要 ， 促 使 语言 学 家 去 研究 语义 学 。 通 过 研究 的 实 
践 ， 学 者 们 逐渐 认识 到 ， 甚 至 句法 的 研究 也 是 不 可 避免 地 与 语义 学 纠缠 
在 一 起 的 。 因 此 ， 他 们 重新 对 语义 学 发 生 了 兴趣 ， 并 且 这 种 兴趣 迅速 地 
与 日 俱 增 。 





哲学 家 们 曾经 提出 过 意义 公设 系统 ， 它 包括 规则 系统 、 缠 涵 符 号 
C=). BHE Cand, or not) 等 ， 这 样 ， 便 可 以 把 词 的 意义 分 解 
为 行 干 个 基本 意义 组 成 的 意义 公设 系统 。 在 意义 公设 系统 中 ， 词 的 意义 
可 以 由 一 组 语义 公设 来 确定 ， 可 以 使 用 一 阶 谓词 演算 〈First Order 
Predicate Calculus 简 称 FOPC) 来 朱 述 。 哲 学 家 们 和 巡 辑 学 家 们 的 这 些 研 
究 ， 为 自然 语言 处 理 中 的 语义 研究 打下 了 基础 。 在 这 种 情况 下 ， 一 些 语 
言 学 家 ， 如 美国 的 弗 托 和 玛 考 利 J. D. McCauley) 等 又 把 语言 和 逻辑 
相互 关系 这 样 的 问题 重新 提 了 出 来 。 乔 姆 斯 基 关 于 表层 结构 和 深层 结构 
的 理论 ， 把 语义 问题 提 到 了 相当 的 高 度 。 卡 次 CJ. Katz) 和 弗 托 等 提出 
了 解释 语义 学 ， 采 用 成 分 分 析 法 ， 利 用 语义 成 分 、 标 记 和 关系 来 定义 词 
符 成 分 ， 并 加 上 一 些 控制 和 选择 限制 来 演绎 地 解释 句子 的 语义 。 这 样 的 
研究 对 于 上 自然 语言 处 理 很 有 帮助 。 








SOR EA CC. J. Fillmore) 提出 了 格 语法 (case grammar) ， 从 人 句子 的 
深层 句法 表示 来 推导 句子 的 表层 结构 ， 较 好 地 解决 了 句法 与 语义 相 结合 
的 问题 。 格 语法 规则 产生 的 结构 ， 不 仅 与 句法 相关 ， 而 且 与 语义 相关 ， 
给 目 然 语 言 处 理 的 研究 提供 了 方便 。 格 语法 在 计算 机 上 的 分 析 效 率 也 比 
较 高 ， 受 到 了 自然 语言 处 理 研 究 者 的 欢迎 。 后 来 ， 费 尔 默 又 提出 了 框架 
网 络 (FrameNet) ， 倡 导 在 语料库 基础 上 进行 框架 语义 学 的 研究 。 














玛 考 利 等 提出 了 生成 语义 学 ， 他 们 一 开始 束 用 语义 结构 来 描述 句 
子 ， 然 后 通过 一 系列 的 转换 由 这 种 语义 结构 产生 出 表层 结构 ， 而 用 不 着 
对 深层 结构 作 任 何 说 明 。 


威 尔 元 斯 提出 了 “优选 语义 学 ”(preference semantics) ， 并 把 这 种 
理论 用 于 机 器 翻译 系统 的 研究 中 。 





美国 数理 多 辑 学 者 蒙 塔 古 提出 了 蒙 塔 古语 法 (Montague 
grammar) ， 美 国 计 算 机 科学 家 尚 克 提出 了 概念 依存 理论 CConceptional 


Dependency theory， 人 简称 CD 理论 ) ， 美 国 心理 学 家 硅 尼 安 (R. 
Quillian) 提出 了 语义 网 络 理论 ， 美 国人 工 智 能 学 者 西蒙 斯 CR. F. 


Simmons) 又 进一步 该 进 了 语义 网 络 理论 ， 并 把 这 种 理论 应 用 于 目 然 语 
言 处 理 中 。 这 些 理论 都 十 分 强调 语义 的 作用 ， 在 自然 语言 处 理 的 应 用 
中 ， 有 的 理论 (如 CD 理论 ) 直接 以 语义 模型 制导 ， 辅 以 句法 检查 ， 打 
破 了 以 句法 模型 制导 ， 辅 以 语义 检查 的 传统 格局 ， 实 现 了 自然 语言 处 理 
的 “句法 语义 一 体 化 ”。 








美国 学 者 汉 德 雷 斯 (Handres〉 在 描述 一 种 语言 的 过 程 时 ， 把 大 量 
的 语义 信息 植 入 该 语言 的 句法 中 ， 这 样 定义 的 句法 系统 叫做 “语义 语 
法 ”(semantic grammar) 。 语 义 语法 提高 了 自然 语言 的 处 理 速度 ， 效 率 
较 高 ， 后 来 被 许多 实时 人 处理 的 自然 语言 系统 所 采用 。 





近年 来 ， 由 于 语义 学 与 句法 学 的 联系 日 趋 密切 ， 人 逻辑 语法 有 了 很 大 
的 发 展 。 逻 辑 语 法 (logic grammar) 是 指 用 谓词 逻辑 来 表达 的 语法 ， 它 
是 逻辑 程序 设计 和 自然 语言 处 理 相 结合 的 产物 。 在 机 器 翻译 和 自然 语言 
理解 的 研究 领域 里 ， 经 常 使 用 谓词 逻辑 来 描述 知识 和 进行 逻辑 推理 。20 
世纪 70 年 代 以 来 ， 逻 辑 以 PROLOG 语 言 作为 形式 被 应 用 于 程序 设计 ， 谓 
词 逻 辑 束 不 再 仪 仪 用 于 描述 知识 和 逻辑 推理 的 问题 ， 还 作为 逻辑 程序 设 
计 的 工具 来 描述 解决 问题 的 过 程 。 PROLOG 语 言 使 得 迎 辑 和 程序 设计 这 
两 个 相距 甚 远 、 完 全 不 同 的 概念 协调 统一 为 一 个 单独 的 概念 一 一 “逻辑 
程序 设计 ”(Logic Programming) 。 在 用 PROLOG 语 言 来 解决 自然 语言 
处 理 的 各 种 问题 的 研究 过 程 中 ， 人 逻辑 语法 日 益 成 熟 起 来 。 目 前 主要 有 四 
种 影响 较 大 的 逻辑 语法 : 定子 句 语 法 (Definite Clause Grammar， 简 称 
DCG) ， 外 位 语法 (eXtraposition Grammar， 简 称 XG) ， 修 饰 成 分 结构 
语法 (Modifier Structure ”Grammar， 简 称 MSG) ， 约 束 逻 辑 语 法 
(Restricting Logic Grammar， 简 称 RLG) 。 这 些 语法 巧妙 地 把 逻辑 和 名 
法 结合 起 来 ， 使 描述 性 的 形式 语法 具备 了 推理 的 能 力 ， 这 是 自然 语言 处 
理 研究 中 应 该 注意 的 一 个 问题 。 














语言 在 实际 使 用 时 ， 总 是 以 篇 草 或 话语 的 形式 出 现 的 ， 省 略 和 指 代 
以 及 单词 和 句子 的 卜 义 问题 一 般 要 在 上 下 文 背 景 之 下 才能 解决 ， 而 要 在 
字里行间 找 出 说 话 者 的 真正 目的 ， 则 需要 根据 广泛 的 关于 客观 世界 的 知 
识 和 其 他 信息 才 有 可 能 知 其 端倪 。 因 此 ， 自 然 语言 处 理 中 还 出 现 了 一 些 
关于 篇 童 处 理 和 话语 分 析 的 理论 和 方法 ， 如 脚本 CscripO 、 规 划 
(plan) 、 故 事 语 法 (story grammar) 、 故 事 树 (story tree) 等 。 目 然 
语言 处 理 对 如 何 处 理 省 略 、 指 代 、 话 题 、 照 应 关系 以 及 篇 章 结构 等 问 
题 ， 也 进行 了 一 些 有 益 的 探讨 。 这 些 都 推动 了 语 用 学 的 发 展 ， 并 且 使 语 
用 学 与 语义 学 紧密 地 联系 起 来 。 











1983 年 ， 美 国 斯 坦 福 大 学 的 巴 威 斯 (J. Barwise) Am] (J. 
Perry) 出 版 了 《情景 和 态度 》 (Situations and Attitudes ) 一 书 ， 提 出 
了 “情景 语义 学 ”(situation semantics) 的 自然 语言 模型 。 所 谓 “ 情 景 ”， 
就 是 个 体 、 性 质 、 关 系 和 时 空位 置 等 构成 现实 世界 〈 非 语言 环境 和 场 
面 ) 的 各 种 状况 的 集合 ， 可 以 利用 这 样 的 情景 来 描述 语言 的 语义 。 情 景 
语义 学 把 一 般 的 语义 学 和 语 用 学 紧密 地 结合 起 来 ， 对 自然 语言 的 研究 有 
重要 作用 。 























目 然 语 言 处 理 还 促进 了 词汇 学 的 发 展 。 词 典 纺 坚 历来 是 一 件 十 分 本 
燥 乏 味 而 极为 立 百 的 工作 。 计 算 机 使 得 这 件 工作 变 得 简单 易 行 、 轻 松 居 
快 。 计 算 机 可 以 给 词典 提供 足够 的 例句 ， 免 去 了 手工 编 葵 时 转 抄 大 量 卡 
FIRI; 计算 机 可 以 通过 单词 频 度 和 使 用 度 的 统计 ， 确 定 第 用 词 和 通 
用 词 ， 编 写 出 各 种 语言 的 基础 词 表 和 频率 词 表 。 近 年 来 ， 还 出 现 了 各 种 
形式 的 电子 词典 ， 这 种 词典 中 存 贮 着 丰富 的 语言 信息 ， 为 机 器 翻译 和 自 
然 语 言 处 理 其 它 部 门 的 研究 提供 了 基本 的 静态 语言 信息 。 日 本 成 六 了 电 
子 词典 研究 所 ， 专 门 研究 电子 词典 的 理论 和 应 用 问题 。 现 在 ， 在 许多 国 
家 ， 电 子 词典 的 编制 已 经 成 为 了 一 种 产业 。 























词汇 语义 学 (Lexical Semantics) 是 现代 语义 学 和 现代 词汇 学 结合 
的 产物 ， 其 研究 对 象 是 语言 中 的 词义 问题 。 它 源 于 语言 学 ， 并 与 语义 
网 、 本 体 论 、 词 典 编撰 、 知 识 表示 等 人 工 智 能 和 认 知 科学 密切 相关 ， 已 
成 为 自然 语言 处 理 和 理解 的 重要 基础 。 











词汇 语义 学 的 研究 内 容 涉 及 词汇 的 语义 表达 以 及 词汇 概念 与 概念 之 
间 的 语义 关系 。20 世 纪 70 年 代 末 期 ， 语 言 学 家 开始 利用 语料库 来 研究 词 
义 以 及 词语 之 间 的 搭配 关系 。 例 如 ， 完 全 根据 语料库 编制 而 成 的 Collins 
COBUILD English Dictionary 就 进行 了 词语 搭配 关系 的 研究 。 其 后 ， 以 
i| CWordNeO 为 代表 的 词汇 语言 资源 对 词汇 语义 学 研究 产生 了 深远 











影响 。 随 着 研究 的 深入 ， 有 越 来 越 多 标注 词汇 语义 信息 的 语料库 出 现 : 
如 标注 了 论 元 结构 及 语义 角色 信息 的 框架 网 络 (FrameNet) 、 动 词 网 络 
(VerbNet) 等 。 相 应 地 ， 在 理论 研究 层面 ， 词 汇 语义 学 的 理论 框架 也 
有 了 长 足 发 展 。 





近年 来 ， 互 联网 的 发 展 日 新 月 异 ， 也 对 于 目 然 语言 处 理 提出 了 新 的 
挑战 。 





与 互联 网 有 关 的 自然 语言 处 理 的 问题 有 很 多 。 除 了 机 器 翻译 之 外 ， 
还 有 基于 网 络 的 问答 系统 CWeb-based question answering) 。 这 种 基于 
网 络 的 问答 系统 是 简单 的 网 络 搜索 的 进一步 发 展 ， 在 基于 网 络 的 问答 系 
统 中 ， 用 户 不 只 是 仪 仅 键 入 关键 词 进行 提问 ， 而 是 可 以 用 上 自然 语言 提出 
一 系列 完整 的 问题 ， 从 容易 的 问题 到 困难 的 问题 都 可 以 提 。 例 如 下 面 的 


问题 ， 








e What does“divergent”mean? (divergent 的 意思 是 什么 ? ) 

e What year was Abraham Lincoln born? (亚伯拉罕 :林肯 生 于 哪 一 
a) 

e How many states were in the United States that year? 〈 那 一 年 在 美国 
有 多 少 个 州 ? ) 

e How much Chinese silk was exported to England by the end of the 18'^ 
century?〈18 世 纪 末 有 多 少 中 国 的 丝绸 出 口 到 英国 ? ) 

e What do scientists think about the ethics of human cloning? (关于 克隆 
人 的 论 理 学 问题 科学 家 们 是 如 何 考虑 的 ? ) 





在 这 些 问题 中 ， 有 的 问题 只 要 求 回答 定义 (definition) ， 有 的 问题 
只 要 求 回答 诸如 日 期 、 地 点 等 简单 的 新 闻 要 素 (factoid) ， 对 于 这 样 的 
问题 ， 使 用 搜索 引擎 就 可 以 回答 了 。 但 是 对 于 需要 抽取 嵌入 在 网 页 的 其 


他 文本 中 的 信息 才能 回答 的 那些 更 加 复杂 的 问题 ， 就 要 进行 推理 
(inference) ， 也 就 是 根据 已 经 知道 的 事实 推出 结论 ， 或 者 从 多 重 的 信 
恩 源 或 网 页 中 对 信息 进行 综合 或 摘 取 。 这 就 涉及 到 信息 抽取 
(information extraction) 、 文 本 数据 挖掘 — (Text Data Mining) 等 问 


日 


RS o 











另外 ， 互 联网 主要 是 由 语言 文字 构成 的 ， 随 着 互联 网 的 有 发展， 网 络 
成 为 无 比 丰富 的 语言 资源 。 互 联网 上 的 词 频 统 计 结果 ， 有 助 于 深化 我 们 
对 于 词 频 的 认识 。 








孙 成 松 对 于 互联 网 上 的 用 词 进 行 了 统计 分 析 。 他 发 现 ， 互 联网 上 词 
频 统 计 的 结果 与 书面 文本 的 词 频 统 计 结果 是 有 差异 的 。 下 面 图 1.9 是 互 
联网 中 的 最 种 用 词 的 频 度 排序 。 可 以 看 出 ， 汉 语 中 频 度 最 高 的 单词 
是 “我 "和 “你 ”而 不 是 大 家 公认 的 “的 "。 这 是 值得 我 们 关注 的 。 








词 条 Rank 词 频 用 户 数 ” 词 条 Rank 词 频 用 户 数 


我 1 360456033 522587 没 11 88331674 498771 
尔 2 360305074 531529 呵呵 12 85357971 463119 
的 3 357092967 517424 ” 吧 13 81840800 497436 
Y 4 230590031. 486471 要 14 80463098 506878 
不 5 . 189282134 519413 JW 15 79267472 499990 
是 6 179442381 522535 # 16 78626531 499857 
就 7 . 115686907 502708 什么 17 77052055 500361 
好 8 1059051006 523219 都 18 76903779 490601 
在 9 9793182] 522355 说 19 72666295 498554 


a 
三 


97214653 524156 也 20 70099176 497291 
图 1.9 互联 网 的 词 频 , “我 ”的 排名 第 一 


郑 林 曦 编著 的 《普通 话 三 千 常 用 词 表 》 UL 是 一 部 很 有 代表 性 的 普 


通话 第 用 词 表 。 但 是 ， 孙 成 松 的 研究 发 现 ， 互 联网 上 的 很 多 第 用 词 ， 在 
普通 话 三 干 第 用 词 表 中 并 不 存在 ， 而 普通 话 三 干 常用 词 表 中 的 茶 些 常用 
词 ， 在 互联 网 中 的 出 现 频 度 却 很 低 。 他 根据 网 络 的 用 词 统 计 结果 ， 建 立 
了 了 用户 词 库 ， 发 现 用 户 词 库 中 的 词 与 普通 话 三 干 常 用 词 表 中 的 词 并 不 一 
BL, RM P. 














用 户 词 库 前 856 个 词 条 中 不 在 普通 话 三 干 常 用 词 中 的 单词 共 216 个 ， 
包括 : 


ota i: fug, mpmg, E. W. nn. MRR 

新 产生 的 词 : POL. HAA. ABI. eA. Rak. ERA. 
专 有 名 词 : 北京 、 中 国 、 广 州 、 深 圳 。 

常用 词 的 组 合 : 有 没有 、 是 不 是 。 

















普通 话 三 千 常 用 词 在 用 户 词 库 中 的 词 频 很 低 的 单词 : 


留 声 片 、 端 阳 节 、 自 来 水 笔 、 匙 子 。 








孙 成 松 对 于 互联 网 用 词 的 上 述 研究 结果 ， 补 充 了 传统 语言 研究 的 不 
足 。 








互联 网 还 给 新 词 新 语 的 研究 提供 了 重要 资源 。 通 过 互联 网 可 以 获得 
大 量 的 新 词 、 新 语 、 新 用 法 ， 互 联网 成 为 词汇 学 研究 的 重要 手段 。 


利用 互联 网 ， 我 们 还 可 以 发 现 一 些 流行 热点 词 的 使 用 走向 。 下 面 是 
热点 词 “Michael Jackson” 在 2009 年 6 一 7 月 间 的 搜索 次 数 统计 ， 从 中 我 们 
可 以 看 出 这 个 热点 词 的 使 用 走 同 ， 在 2009 年 6 月 26 日 搜索 次 数 最 局 ， 
AIS R, MARFA GEM (Michael Jackson) 不 幸 与 世 长 辞 。 








在 互联 网 中 还 可 以 由 公众 来 编 熙 百科 全 书 。 著 名 的 维基 百科 


Wikipedia 是 互联 网 上 动态 的 百科 全 书 ， 成 为 当代 社会 重要 的 知识 源 。 





可 见 互联 网 对 于 传统 的 词汇 学 研究 和 群 书 编纂 方法 提出 了 挑战 。 
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图 1.10 Michael Jackson 的 搜索 次 数 统计 
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图 1.11 Wikipedia 成 为 公众 参与 的 百科 全 书 





在 自然 语言 处 理 的 推动 下 ， 文 子 学 研究 开始 同 图 象 识别 的 方法 结合 
起 来 。 因 为 文字 也 是 一 种 图 象 ， 图 象 识 别 中 采用 的 许多 方法 ， 如 图 象 识 
别 的 句法 分 析 方 法 ， 也 可 用 到 文学 识别 中 去 ， 这 方面 的 工作 ， 在 美国 和 
日 本 都 取得 了 很 大 的 成 就 ， 这 也 许 会 给 古老 的 文字 学 研究 开辟 出 一 片 新 
天 地 。 





我 国 的 汉字 识别 研究 独 具 特 色 ， 采 用 选取 汉字 特征 点 和 数学 形态 学 
的 方法 来 提取 汉字 的 结构 特征 ， 在 印刷 体 汉 字 识 别 方面 ， 已 经 研究 出 一 
批 实用 化 、 商 品 化 的 系统 。 这 些 系统 一 般 都 具有 版 面 分 析 、 文 本 识别 、 
识别 结果 后 处 理 、 目 动 纠 错 、 目 动 编辑 、 目 动 输出 等 功能 。 在 联机 手 号 
体 汉 字 识 别 方面 ， 识 别 率 正 逐 渐 提高 ， 已 达到 商品 化 的 水 平 。 




















在 计算 机 上 输入 输出 英文 、 俄 文 等 拼音 文字 《主要 是 拉丁 字母 和 斯 
拉夫 字母 ) 的 问题 早已 解决 ， 但 像 汉字 这 样 包括 数 万 个 字符 的 大 字符 
集 ， 其 输入 输出 计算 机 的 问题 融 不 是 很 容易 的 事 了 。 为 了 解决 这 个 问 
题 ， 有 必要 利用 计算 机 来 研究 汉字 的 频率 ， 分 析 汉 字 的 部 件 ， 测 试 汉字 
的 信息 量 和 元 余 度 ， 设 计 高 效率 的 汉字 输入 键盘 。 这 些 都 促使 汉字 研究 
与 自然 语言 处 理 的 研究 结合 起 来 。 











目前 ， 在 拉丁 字母 和 斯 拉夫 字母 以 外 的 一 些 拼 首 文 字 ， 如 泰文 、 贡 
鲜 文 、 阿 拉 伯 文 、 驼 文 、 藏 文 等 在 计算 机 上 的 输入 输出 问题 ， 己 经 有 了 
可 喜 的 研究 成 果 。 在 自然 语言 处 理 的 推动 下 ， 传 统 的 文字 学 园地 里 ， 吹 
起 了 一 股 现代 化 的 东风 。 











现在 上 自然 语言 处 理 正 处 于 激动 人 心 的 时 刻 。 普 通 计算 机 用 户 可 以 使 
用 的 计算 资源 正 以 惊人 的 速度 迅速 增长 ， 互 联网 的 兴起 并 且 成 为 了 无 比 





丰富 的 信息 资源 ， 无 线 移动 通信 和 日益 普及 并 且 日 普 增 长 起 来 ， 这 些 都 使 
得 卓然 语言 处 理 的 应 用 成 为 了 当前 科学 技术 的 热门 话题 。 








这 里 我 想 列 举 出 当前 目 然 语言 处 理 的 一 些 应 用 项 目 ， 由 此 可 以 看 出 
这 个 学 科 近 期 发 展 对 于 社会 进步 的 重要 作用 。 





e 自动 生成 天 气 预报 : 加 拿 大 的 计算 机 程序 TAUM-METEO 能 够 接 
受 每 天 的 天 气 预报 的 数据 ， 然 后 自动 生成 天 和 气 预 报 的 报告 ， 不 必 经 过 进 
一 步 的 编辑 就 可 以 用 英语 和 法 语 公 布 。 





e 目 动 翻译 和 目 动 问答 : 美国 Systran 的 Babel Fish 机 器 翻译 系统 每 
天 可 以 从 Alta Vista 搜索 引擎 处 理 100 万 个 翻译 的 问题 。 基 于 网 络 的 问答 
系统 (Web-based question answering) 是 简单 的 网 络 搜索 的 进一步 发 
展 ， 在 基于 网 络 的 问答 系统 中 ， 用 户 不 只 是 仅仅 键入 关键 词 进行 提问 ， 
而 是 可 以 用 自然 语言 提出 一 系列 完整 的 问题 ， 从 容易 的 问题 到 困难 的 问 
题 都 可 以 提 ， 计 算 机 根据 网 络 搜索 的 结果 ， 用 自然 语言 回答 用 户 的 提 
问 。 











e 饭馆 咨询 服务 : 目前 ， 世界 上 已经 出 现 不 少 使 用 自然 语言 的 口 
语 癌 计算 机 咨询 饭馆 服务 情况 的 系统 。 例 如 ， 前 往 美 国 马 陡 诸 塞 州 
Cambridge 访 问 的 一 个 访问 者 用 口语 问 计 算 机 在 什么 地 方 可 以 吃饭 。 系 
统 查 询 了 一 个 关于 当地 饭馆 的 数据 库 之 后 ， 给 出 有 关 信息 用 自然 语言 做 
出 回答 。 





e 图 象 到 语音 的 自动 转换 : 给 计算 机 装 上 图 象 识 别 系统 ， 它 就 可 
以 观看 一 段 足 球 比赛 的 录像 ， 并 且 用 目 然 语言 实时 地 癌 足 球 爱 好 者 报告 
比赛 的 情况 。 











e 残疾 人 增强 交际 : 对 于 有 言语 或 交际 障碍 的 残疾 人 ， 计 算 机 能 





预见 到 在 说 话 过 程 中 下 面 将 要 出 现 的 词语 ， 给 他 们 做 出 提示 ， 或 者 帮助 
他 们 说 话 时 在 词语 方面 进行 扩充 ， 使 残疾 人 能 完整 地 说 出 简洁 的 话语 。 





e 旅行 咨询 服务 : 例如 ， 美 国 的 Amtrak 旅 行 社 、 美 国联 合 航 空 公 
司 以 及 其 他 的 一 些 旅行 社 可 以 与 智能 会 话 代 理 (intelligent conversation 
agent) 进行 交互 ， 在 智能 会 话 代 理 的 指导 下 ， 他 们 能 够 自动 地 处 理 关 于 
旅行 中 的 订 票 、 到 达 、 离 开 等 方面 的 信息 。 


e 语音 地 理 导 航 : 汽车 制造 公司 可 以 给 汽车 构 驶 员 提 供 语音 识别 
和 文本 一 语音 转换 系统 ， 使 得 他 们 可 以 通过 语音 来 控制 他 们 的 环境 、 娱 
乐 以 及 导航 系统 ， 从 而 可 以 自由 地 使 用 他 们 的 双手 操纵 汽车 。 在 国际 空 
间 站 的 宇航 员 也 可 以 使 用 简单 的 口语 对 话 系 统 来 帮助 他 们 的 工作 。 语 音 
合成 系统 还 可 以 作为 全 球 定位 系统 (Global Positioning System， 简 称 
GPS) 的 语音 导航 ， 使 用 自动 合成 的 语音 来 报告 地 理 情 况 ， 保 证 构 驶 员 
用 双手 操纵 汽车 。 目 前 使 用 语音 导航 的 GPS 已 经 逐渐 普及 ， 给 汽车 构 驶 
员 提 供 了 极 大 的 方便 。 





e 语音 资料 搜索 : 一 些 视频 搜索 公司 使 用 语 首 识别 技术 ， 可 以 在 
网 络 上 提供 多 达 数 百 万 小 时 的 视频 资料 的 搜索 服务 ， 并 且 在 语音 资料 中 
搜索 到 与 之 相应 的 单词 。 


e 跟 语 言 信 息 检 索 和 翻译 : Google (AR) 在 网 上 提供 跨 语言 信 
恩 检 索 和 40 多 个 语言 对 的 自动 翻译 服务 ， 用 户 可 以 使 用 他 们 自己 的 母语 
来 提问 ， 以 便 搜索 其 他 语言 中 的 有 关 信 息 。Google 还 可 以 对 用 户 提 出 的 
问题 进行 自动 翻译 ， 找 出 与 所 提出 的 问题 最 相关 的 网 页 ， 然 后 自动 地 把 
它们 翻译 成 用 户 的 母语 。 








e 作文 自动 评分 : 在 美国 ， 像 增生 公司 (Pearson) 这 样 的 大 型 出 


版 社 和 像 ETS (English Test Service) 这 样 的 测试 服务 公司 使 用 自动 系统 
来 分 析 数 干 篇 学 生 的 身 语 作文 ， 对 于 这 些 作文 进行 自动 打分 、 上 自动 排序 
和 自动 评价 ， 而 且 计 算 机 的 打分 结果 与 人 的 打分 结果 几乎 坚 无 二 致 ， 难 
以 分 辨 。 


e 目 动 阅读 家 性 教师 : 让 计算 机 充当 自动 阅读 家 性 教师 ， 帮 助 改 
善 阅读 能 力 ， 它 能 教 小 孩 阅读 故事 。 当 阅读 人 要 求 阅 读 或 者 出 现 阅 读 错 
误 时 ， 计 算 机 能 使 用 语音 识别 器 来 进行 干预 。 具 有 生动 活泼 的 动画 特征 
的 交互 式 虚 拟 智能 代理 可 以 充当 教员 来 教 儿童 学 习 如 何 阅 读 。 








e 个 性 化 市 场 服务 : 文本 分 析 公 司 根据 用 户 在 互联 网 论坛 和 用 户 
群体 组 织 中 表现 出 来 的 意见 、 仿 好 、 态 度 的 自动 测试 结果 ， 对 用 户 提 供 
智能 化 、 个 性 化 的 服务 ， 帮 助 用 户 在 市 场 上 挑选 到 符合 他 们 要 求 的 丙 


Ho 





LH 





EARTH pi ARES I FI UE SE EU RIEA ES 
茶 地 赞叹 :“ 大 截 目 然 语言 处 理 之 为 用 ! ” 





自然 语言 处 理 不 仅 影响 了 传统 理论 语言 学 的 上 述 部 门 ， 而 且 ， 还 强 
烈 地 冲击 着 索 绪 尔 以 来 的 普通 语言 学 基本 理论 ， 以 大 量 的 新 的 事实 和 研 
完成 果 ， 严 峻 地 考验 着 这 些 基本 理论 。 














我 们 这 里 只 是 谈 一 谈 关 于 语言 符号 的 特性 的 问题 。 目 然 语 言 处 理 的 
发 展 ， 使 我 们 了 解 到 语言 符号 的 许多 重要 特性 ， 从 新 的 侧面 进一步 丰富 
了 我 们 对 于 语言 符号 本 质 的 认识 。 








索 绪 尔 在 他 的 《普通 语言 学 教程 》 一 书 中 ， 曾 提出 语言 符号 具有 如 
下 两 个 重要 的 特性 〈 索 绪 尔 ， 中 译本 ，1980) B, 





一 、 符 号 的 任意 性 : 语言 符号 的 能 指 和 所 指 联系 是 任意 的 。 索 绪 尔 
认为 ， 符 号 任意 性 的 原则 “ 文 配 着 整个 语言 学 ， 它 的 后 果 是 不 胜 枚 举 
的 ， 人 们 经 过 许多 周折 才 发 现 它们 ， 同 时 也 发 现 了 这 个 原则 是 头等 重要 
HI". 











二 、 能 指 的 线条 性 : AAR, iB HHUBEdRS TIE, A 
在 时 间 上 展开 ， 而 且 具 有 借 目 时 间 的 特征 : CL) 它 体 现 为 一 个 长 度 ， 
(2) 这 长 度 只 能 在 一 个 向 度 上 测定 ， 它 是 一 条 直线 。 索 绪 尔 认为 :“ 这 
古 一 个 似乎 为 第 人 所 色 视 的 基本 原则 ， 它 的 后 果 是 数 之 不 尽 的 ， 它 的 重 
要 性 与 符号 任意 性 的 规律 不 相 上 下 ， 语 言 的 整个 机 构 都 取决 于 它 。” 





在 我 们 看 来 ， 索 绪 尔 提出 的 语言 符号 的 任意 性 这 一 特征 是 无 可 非议 
的 ， 但 是 ， 他 提出 的 语言 符号 的 第 二 个 特征 一 一 能 指 的 线条 性 就 未 必 是 
正确 的 了 。 因 为 新 的 研究 结果 表明 ， 语 言 的 能 指 并 不 只 是 线条 性 的 东 
西 。 英 国 著 名 语言 学 家 弗 斯 C. K. Firth) $ed 25 Er ER 
ve” (prosodic) ， 他 认为 ， 在 一 种 语言 里 ， 区 别 性 语音 特征 不 能 都 归纳 
在 一 个 音 段 位 置 上 ， 例 如， 语调 就 不 是 处 于 一 个 音 段 位 置 上 ， 而 是 处 于 
前 后 相 续 的 线条 性 的 音 段 之 外 ， 笼 单 着 或 管 领 着 整个 句子 的 东西 。 如 果 
我 们 把 语调 这 样 的 跨 首 段 成 分 算 进 去 ， 语 言 的 能 指 束 不 宜 看 作 线条 性 的 
东西 ， 而 应 该 看 作 立 体 性 的 东西 了 。 


























由 于 时 代 所 限 ， 索 绪 尔 当然 不 可 能 提出 那些 只 有 在 电子 计算 机 时 代 
才能 揭示 出 来 的 语言 符号 的 新 特点 。 


随 着 电子 计算 机 的 出 现 和 发 展 ， 特 别 在 自然 语言 处 理 出 现 之 后 ， 普 
通 语 言 学 的 理论 也 应 该 相应 地 发 展 。 我 们 不 能 墨守成规 ， 满 足 于 旧 有 的 
结论 ， 而 应 该 站 在 前 辈 学 者 的 肩膀 上 ， 局 瞻 远 瞩 ， 吸 取 上 自然 语言 处 理 的 
新 成 果 ， 从 新 的 角度 ， 用 新 的 眼光 ， 以 新 的 方法 来 研究 语言 这 一 个 极为 

















复杂 的 符号 系统 。 正 是 基于 这 样 的 认识 ， 我 们 觉得， 语言 符号 除了 索 绪 
尔 所 指出 的 那 两 个 不 尽 完 善 的 特点 之 外 ， 还 有 着 如 下 七 个 十 分 引 人 注 目 
的 特点 。 


前 面 说 过 ， 索 绪 尔 关于 语言 符号 线条 性 的 观点 ， 早 就 受到 了 语言 研 
完 新 成 果 的 严峻 挑战 。 弗 斯 的 “ 跨 首 段 论 " 已 证 明 ， 语 言 符 写 并 不 是 线条 
性 的 东西 ， 而 是 立体 性 的 东西 。 














弗 斯 的 “ 跨 音 段 论 ”只 限于 音 位 学 方面 。 其 实 ， 在 语言 的 其 它 方面 ， 
语言 符号 也 不 仅仅 是 线条 性 的 ， 而 是 立体 性 的 东西 。 所 谓 立 体 性 ， 融 是 
说 ， 语 言 符号 具有 分 层 结构 ， 即 层次 性 。 








语言 符号 的 层次 性 ， 在 句子 结构 方面 表现 得 特别 明显 。 


美国 摘 写 语言 学 派 的 语言 学 家 早 就 指出 ， 英 语 的 “The old men and 
women stayed at home” (年 老 的 男人 和 女人 留 在 家 里 ) KATE A 
的 。 如 果 我 们 把 这 一 名 话说 给 一 些 人 听 ， 很 可 能 有 的 听话 人 会 认为 它 的 
意思 是 “年 老 的 男人 和 和 所 有 的 女人 “不论 年 龄 大 小 ) 留 在 家 里 ”， 另 一 
些 听 话 人 会 认为 它 的 意思 是 “所 有 年 老 的 男人 和 所 有 年 老 的 女人 留 在 家 
里 ”>， 还 有 的 听话 人 干脆 不 能 作出 决定 ， 处 于 模棱两可 的 状态 。 








事实 上 , “old men and women” 这 个 名 词 短语 根据 意义 的 不 同 有 两 种 
不 同 的 层次 结构 。 如 果 注 意 到 层次 的 不 同 ， 那 么 ， 这 种 意义 上 两 可 的 情 
况 就 可 以 得 到 解释 。 





一 种 层次 结构 是 


oldmen and women 








这 时 ， 这 个 名 词 短 语 的 意义 是 :“ 年 老 的 男人 和 所 有 的 女人 ”。 
另 一 种 层次 结构 是 
old men and women 
这 时 ， 这 个 名 词 短语 的 意义 是 :“ 所 有 年 老 的 男人 和 所 有 年 老 的 女人 ”。 


一 般 地 说 ， 如 果 要 判断 两 个 语言 片段 A=al az ... an MBb] by ... bm 
是 否 具 有 同一 性 ， 至 少 应 该 满足 三 个 条 件 : 





QA 和 B 中 对 应 的 词 形 相 同 ， 词 数 相 [n] . 即 有 ai zi b, ，d2 = b» >» + An 
=b,,» Hn=m. 





AMBP HJHH. BN: 如 果 有 al a, y apa 7 aQ5 MA, WM 
Alb, = bo, =bn = by. HEH, "ER B T OSA 





(A 和 B 中 各 个 词 之 间 的 层次 结构 相同 。 





在 目 然 语 言 处 理 中 ， 币 采用 树 形 图 来 表示 语言 符号 的 层次 关系 。 目 
然 语 言 处 理 的 理论 认为 ， 任 何 一 个 句子 的 线性 序列 的 表层 之 下 ， 都 隐藏 
独 一 个 层次 分 明 的 树 形 图 。 当 一 个 句子 的 线性 序列 之 下 隐藏 着 两 个 或 两 
个 以 上 的 树 形 图 时 ， 这 个 句子 束 会 产生 上 蚊 义 ， 就 会 得 到 不 同 的 解释 。 

















树 形 图 由 结 点 和 连接 结 点 的 校 组 成 。 树 形 图 的 各 个 结 点 之 间 ， 有 两 
种 关系 值得 注意 : 一 种 是 文 配 基 系 ， 它 反映 了 上 下 结 点 之 间 的 先辈 和 后 








裔 的 关系 ， 一 种 是 前 于 关系 ， 它 反映 了 左右 结 点 之 间 前 位 和 后 位 的 关 
系 。 语 言 符 号 的 线条 性 只 反映 了 前 于 关系 ， 而 没有 反映 支配 关系 ， 当 然 
就 有 很 大 的 局 限 。 


树 形 图 与 目 然 语言 处 理 中 广 为 应 用 的 短语 结构 语法 有 着 明显 的 对 应 
关系 。 乔 姆 斯 基 的 短语 结构 语法 ， 既 能 描述 自然 语言 ， 也 能 描述 程序 设 
计 语 言 ， 这 种 语法 已 经 成 为 了 形式 语言 理论 的 重要 研究 内 容 。 在 形式 语 
言 理论 中 建立 的 短语 结构 语法 与 树 形 图 之 间 的 对 应 和 联系 ， 正 是 基于 对 
语言 符号 层次 性 的 认识 的 基础 之 上 的 。 短 语 结构 语法 和 树 形 图 被 广泛 地 
使 用 于 上 自然 语言 处 理 中 ， 几 乎 每 一 个 上 自然 语言 处 理 研 究 者 天 天 都 要 与 短 
语 结构 语法 和 树 形 图 打交道 ， 天 天 都 要 研究 语言 符号 的 层次 关系 。 目 然 
语言 处 理 的 发 展 ， 进 一 步 加 深 了 我 们 对 于 语言 符号 的 层次 性 的 认识 ， 语 
言 符号 的 层次 性 ， 确 实 是 一 个 比索 绪 尔 提出 的 语言 符号 的 线条 性 更 为 深 
刻 的 特性 。 



































第 二 ， 语 言 付 写 的 非 单元 性 





基于 对 语言 符号 的 层次 性 认识 的 基础 之 上 的 短语 结构 语法 ， 在 机 器 
翻译 和 目 然 语言 理解 的 研究 中 很 快 就 暴露 出 了 它 的 不 少 缺 陷 。 这 种 语法 
分 析 能 力 不 高 ， 分 析 时 难于 处 理 歧 义 等 目 然 语 言 中 普 损 存在 的 问题 ， 锦 
Ade UI, ER AEA, 这 种 语法 生成 能 力 过 强 ， 往 往 会 生成 许多 歧义 
的 句子 或 不 合 语法 的 句子 ， 使 人 误 入 迷津 ， 扑 朔 迷离 。 后 来 ， 目 然 语言 
处 理 研 究 者 发 现 ， 引 起 这 些 缺 陷 的 症结 在 于 ， 短 语 结构 语法 是 采用 音标 
记 来 描述 语言 符号 的 ， 筷 把 语言 符号 看 成 是 不 可 分 割 的 原子 式 的 单元 ; 
如 果 把 语言 符号 看 成 是 可 以 分 割 的 非 单元 性 的 东西 ， 采 用 多 标记 函数 或 





























者 复 洒 特征 来 描述 ， 便 可 以 从 根本 上 死 服 短语 结构 语法 的 上 述 缺 隐 ， 大 
大 地 改善 短语 结构 语法 的 功能 ， 提 高 它 过 弱 的 分 析 能 力 ， 限 制 它 过 强 的 
生成 能 力 。 这 样 ， 便 提出 了 语言 符号 的 非 单 元 性 问题 。 














其 实 ， 索 绪 尔 早 束 认识 到 了 语言 符 写 的 这 种 非 单元 性 。 他 在 《普通 
语言 学 教程 》 中 指出 :“ 语 言 可 以 说 是 一 种 只 有 复杂 项 的 代数 "。 他 举 出 
德语 中 名 词 数 的 变化 来 说 明 这 个 论点 。 德 语 中 名 词 Nacht《〈 夜 ， 单 
数 ) : Nichte《〈 夜 ， 复 数 ) 这 个 语法 事实 可 以 用 ab 这 个 符号 来 代表 ， 但 
是 ， 其 中 的 a、b 都 不 是 简单 项 而 是 复 林 项， 它们 分 别 从 属 与 一 定 的 系统 
之 下 。Nacht 有 名 词 、 阴 性 、 单 数 、 主 格 等 特征 ， 它 的 主要 元 音 为 a， 
Nichte 有 名 词 、 阴 性 、 复 数 、 主 格 等 特征 ， 它 的 主要 元 首 为 ai， 结尾 加 
了 e，ch 的 读音 从 /x/ 变 为 /6/. 这 样 ， 就 可 以 形成 许多 对 立 ， 所 以 叫做 复杂 
项 。 每 一 个 符 写 独立 地 看 ， 可 以 认为 是 简单 项 ， 但 是 从 整体 来 看 ， 则 都 
征 复杂 项 。 索 绪 尔 指出 :“ 语 言 的 实际 情况 使 我 们 无 论 从 哪 一 方面 去 进 
行 研究 ， 都 找 不 到 简单 的 东西 ;随时 随地 都 是 这 种 相互 制约 的 各 项 要 素 
的 复杂 平衡 。”( 索 绪 尔 ， 中 译本 ，1980) 索 绪 尔 在 这 里 所 说 的 “复杂 
项 ”， 指 的 正 是 语言 符号 的 非 单元 性 。 


























早 在 1936 年 ， 美 国语 言 学 家 雅 可 布 进 〈R. Jakobson) 在 比利时 的 根 
特 城 举 行 的 第 三 届 国 际 语音 学 会 议 上 ， 惑 提出 了 能 否 以 对 分 法 为 基础 来 
分 解 元 音 、 辅 音 等 音 位 的 问题 。1951 年 ， 他 在 与 范 特 CM.FanO 、 哈 勒 
(M. Halle) 等 语音 学 家 合 写 的 论文 《语音 分 析 初 探 》 中 ， 提 出 了 对 分 
法 理论 以 及 区 别 特征 学 说 。 他 们 认为 ， 一切 的 首 ( 无 论 元 首 或 是 辅音 ) 
都 是 可 分 的 ， 可 以 根据 它们 的 生理 的 或 声学 的 特性 ， 用 对 分 法 分 成 一 对 
一 对 的 “最 小 对 立体 ”(minimum pairs) 。 例 如 ， 元 音 的 舌 位 有 “高 一 
低 ” 的 对 立 ， 辅 音 的 发 音 方 法 有 “ 清 一 浊 ”的 对 立 。 他 们 把 这 些 最 小 对 立 
体 归 结 为 “十 二 对 区 别 特征 ”(twelve pairs of distinctive features) ， 并 且 























引出 ， 世 界 上 各 种 语言 都 可 以 用 这 十 二 对 区 别 特征 加 以 描述 。 这 样 ， 过 
去 一 直 被 认为 是 不 可 分 的 单元 性 的 元 音 、 辅 音 惑 变 成 由 在 干 区 别 特征 组 
合 而 成 的 、 非 单元 性 的 结构 体 了 。 这 种 区 别 特征 理论 已 成 为 现代 语音 学 
进行 音 位 分 析 的 基础 。 任 何 一 个 音 位 都 可 以 用 区 别 特征 的 集合 来 加 以 描 
述 。 如 菏 一 个 音 位 具有 二 项 对 立 中 的 前 项 特征 ， 记 以 正 号 “+”， 上 共有 二 
项 对 立 中 的 后 项 特征 ， 记 以 负 和 号 “-”， 就 可 以 作成 一 个 和 矩阵 表 ， 作 为 对 
每 一 个 音 位 的 区 别 特征 集合 的 描述 。 这 种 音 位 理论 ， 已 经 在 语音 自动 识 
别 和 合成 的 研究 中 得 到 应 用 ， 证 明 是 行 之 有 效 的 。 这 是 语言 符号 非 单 元 
性 的 有 力 证 明 。 























雅 可 布 还 曾 提 到 ， 他 之 所 以 提出 首位 对 分 理论 ， 是 受到 了 现代 物理 
学 的 影响 所 致 。 他 在 《语音 实体 的 辨识 》 一 文中 写 道 : “语音 学 分 析 及 
其 得 出 的 、 不 能 再 行 分 解 的 音 位 特征 的 概念 ， 同 现代 物理 学 的 研究 成 果 
有 惊人 的 相似 之 处 ， 物 理学 也 正 表 明 ， 物 质 具 有 粒子 状 结构 ， 因 为 它们 
是 由 基本 粒子 构成 的 。”(Jakobson, 1949) 











物理 学 中 关于 物质 具有 粒子 结构 的 观点 ， 音 位 学 中 关于 首位 由 十 二 
对 基本 的 区 别 特征 组 合 而 成 的 观点 ， 自 然 语 言 处 理 中 关于 语言 符号 由 多 
个 标记 组 合 而 成 的 观点 ， 它 们 之 间 是 何等 的 相似 ! 客观 世界 中 存在 着 的 
这 种 相似 现象 ， 说 明了 这 些 现象 之 间 是 有 内 在 联系 的 ， 认 识 事 物 之 间 的 
这 种 相似 性 ， 可 以 增进 我 们 进行 科学 研究 的 才干 ， 提 蜗 研 究 工 作 的 自觉 
性 和 目的 性 。 英 国 物理 学 家 法 拉 第 CM. Faraday) 受到 他 的 老师 戴 维 
CH. Davy) 把 化 学 能 转化 为 电能 ， 又 把 电能 转化 为 化 学 能 的 可 逆 过 程 
的 局 有 发， 立志 要 把 已 经 发 现 的 由 电 生 磁 现 象 〈 奥 斯 起 现象 ) 转化 为 由 磁 
生 电 。 经 过 9 年 努力 ， 终 于 完成 了 由 磁 生 电 的 实验 〈 法 拉 第 实验 ) ， 建 
六 了 电磁 感应 学 说 的 完整 理论 。 正 是 这 种 对 于 事物 之 间 相 似 性 的 信念， 
使 我 们 更 加 坚信 ， 非 单元 性 确实 是 语言 符号 的 又 一 个 重要 特性 。 


























目 然 语言 处 理 的 理论 和 实践 ， 加 深 了 我 们 对 于 语言 符号 的 非 单元 性 
的 认识 。 为 了 改进 乔 姆 斯 基 的 短语 结构 语法 ， 在 目 然 语 言 处 理 的 许多 理 
论 中 ,部 上 自觉 地 采用 了 “复杂 特征 ”的 概念 ， 使 用 “特征 / 值 ”系统 来 描述 句 
子 的 结构 。 











自然 语言 处 理 还 提出 了 非 单 元 性 的 这 种 “复杂 特征 ?进行 运算 的 数学 
JjiE— —"fr—" Cunification 运算 ， 从 而 使 我 们 对 于 语言 符号 非 单 元 
性 的 认识 可 以 在 计算 机 上 进行 实际 的 操作 和 演算 。 这 种 合 一 运算 ， 并 不 
完全 服从 于 传统 的 集合 论 的 运算 。 集 合 运 算 一 般 并 不 考虑 运算 对 象 的 相 
容 性 ， 而 合 一 运算 则 必须 考虑 运算 对 象 的 相 容 性 。 合 一 运算 具有 两 种 作 
H: 

















@ 合 并 原 有 的 特征 信息 ， 构 造 新 的 特征 结构 ， 这 与 集合 论 中 的 " 求 
并 * 运 算 类 似 。 





包 检 查 特征 的 相 容 性 和 规则 执行 的 前 提 条 件 ， 如 果 参 与 合 一 的 特征 
相 冲 突 ， 就 立即 宣布 合 一 失败 。 





可 见 ， 合 一 运算 提供 了 一 种 在 合并 各 方面 来 的 特征 信息 的 同时 ， 检 
验 限制 条 件 的 机 制 。 这 正 是 非 单元 性 的 语言 符号 在 计算 机 上 运算 时 所 需 
要 的 。 所 以 ， 自 然 语言 处 理 不 仅 在 理论 上 证 明了 语言 符号 确实 具有 非 单 
元 性 ， 而 且 还 在 实践 上 使 这 种 非 单 元 性 获得 了 在 计算 机 上 进行 运算 的 可 
能 性 。 
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我 们 平时 说 话 时 的 语 流 似乎 是 连续 不 断 的 ， 但 在 实际 上 ， 这 些 连续 


不 断 的 语 流 却 是 由 许多 离散 的 单元 所 组 成 的 。 在 水 平方 同上 ， 语 流 可 以 
被 分 解 为 看 干 段落 ， 一 个 段落 又 可 以 被 分 解 为 在 干 多 子 ， 一 个 句子 又 可 
以 被 分 解 为 天干 短语 ， 一 个 短语 又 可 锐 分 解 为 加 干 单词 ， 一 个 单词 勾 可 
被 分 解 为 看 二 语素， 一 个 语素 又 可 和 被 分 解 为 看 干 音节 ， 一 个 音节 又 是 由 
若干 个 元 音 和 辅音 音 位 组 合 而 成 的 。 在 竖 直方 向 上 ， 语 流 中 的 各 个 成 分 
又 可 引起 联想 ， 引 出 与 之 属于 同一 聚 类 的 耕 干 个 离散 单元 来 。 所 以 ， 在 
连续 语 流 的 水 平方 向 和 竖 直 方向 上 ， 实 际 上 都 是 与 徊 干 个 不 同 的 离散 单 
元 联系 着 的 。 

















语言 符号 的 这 种 离散 性 ， 在 语 流 的 俘 延 时 表现 得 特别 明显 ， 人 们 往 
往 可 以 利用 语 流 停 延 的 这 种 离散 性 质 ， 来 区 别 语 流 的 不 同 含义 。 








汉语 的 书面 语 中 词 与 词 之 间 是 连 写 的 ， 不 像 印 欧 语 的 书面 语 那样 留 
有 空白 ， 因 此 ， 在 汉语 书面 语 中 ， 词 与 词 之 间 的 离散 特点 体现 不 出 来 。 
这 种 情况 给 汉语 的 目 动 句法 语义 分 析 造 成 了 极 大 的 困难 。 在 中 文 信息 处 
理 中 ， 汉 语 目 动 句法 语义 分 析 的 第 一 步 便 是 自动 切 词 ， 根 据 词 与 词 之 间 
的 离散 特征 ， 把 相互 连 在 一 起 的 词 切 开 。 可 以 说 ， 语 言 符号 的 离散 性 ， 
征 汉 语 上 自动 切 词 在 语言 学 上 的 理论 根据 。 


























美国 语言 学 家 朱 斯 CM. Joos) 早 驶 指出 了 语言 符号 的 这 种 离散 性 。 
他 说 :“ 数 学 研究 工具 一 般 具 有 两 种 类 型 . 连续 分 析 《〈 例 如 ， 无 限 小 量 
的 计算 ) 或 离散 分 析 〈 例 如 ， 有 限 群 理论 ) ， 而 可 以 称 为 语言 学 的 那个 
部 门 则 属于 后 者 ， 这 时 ， 它 不 容许 与 连续 性 有 半点 儿 受 协 ， 因 此 ， 凡 是 
与 连续 性 有 关 的 一 切 ， 都 得 排除 于 语言 学 之 外 。 语 言 学 的 范畴 是 绝对 
的 ， 是 不 容许 任何 妥协 的 。” 他 还 说 :“ 现 在 ， 语 言 学 家 把 任何 语言 ， 也 
就 是 任何 一 个 言语 行为 ， 看 成 是 由 叫做 音 位 的 不 大 数量 的 基本 单位 组 成 
的 ， 这 些 音 位 在 重复 出 现时 被 认为 是 等 同 的 。 从 物理 学 的 角度 来 看 ， 
hotel 这 个 词 对 于 不 同 的 人 或 同一 人 发 音 ， 不 可 能 完全 相同 地 发 两 次 ， 但 





从 语言 学 的 角度 看 ， 这 里 却 有 一 个 平均 数 (t) ， 它 始终 是 同样 的 ， 可 
以 不 管 它们 的 细微 送别 ， 而 把 它们 看 作 一 个 不 可 分 解 的 语言 学 原子 或 范 
畴 ， 这 种 原子 或 范畴 ， 或 者 是 完全 等 同 的 ， 或 者 是 完全 不 同 的 。” 这 
里 ， 朱 斯 十 分 明确 地 把 语言 看 成 是 “不 可 分 解 的 语言 学 原子 或 范畴 ”离散 
地 结合 起 来 的 ， 据 此 ， 他 提出 用 离散 数学 来 研究 语言 。 他 说 :“ 物 理学 
家 利用 连续 数学 来 解释 言语 ， 如 侍 利 叶 分 解 、 自 相关 浮 数 等 ， 而 语言 学 
家 则 与 此 相反 ， 他 们 利用 离散 数学 来 研究 语言 。” 包 


朱 斯 关于 语言 符号 离散 性 的 论述 似乎 有 点 儿 矫 枉 过 正 。 语 言 符号 当 
然 具 有 离散 性 的 一 面 ， 但 是 ， 语 言 符 写 也 有 连续 性 的 一 面 ， 特 别 是 在 语 
言 的 使 用 中 。 在 语言 的 交际 过 程 中 ， 我 们 也 可 以 利用 一 些 连续 数学 的 方 
法 来 研究 它 ， 而 且 实 际 上 在 这 方面 我 们 已 经 取得 了 不 小 的 成 绩 。 朱 斯 要 
把 “凡是 与 连续 性 有 关 的 一 切 ”， “都 得 排除 在 语言 学 之 外 ， 确 实 是 太 过 
分 了 。 事 实 上 , “离散 性 ?和 ?连续 性 ?都 是 语言 符号 本 吴 所 具有 的 性 质 ， 
不 过 ， 在 语言 的 使 用 的 交际 过 程 中 ， 我 们 强调 语言 符号 的 连续 性 ， 用 连 
续 数 学 的 方法 来 研究 它 ， 在 语言 结构 的 分 析 中 ， 我 们 强调 语言 符号 的 离 
散 性 ， 用 离散 数学 的 方法 来 研究 它 ， 而 语言 本 里 则 是 离散 性 和 连续 性 的 
统一 体 。 


























根据 语言 符 写 的 离散 性 ， 自 然 语言 处 理 采 用 集合 论 的 方法 ， 建 立 了 
目 然 语言 的 集合 论 模型 ， 并 把 这 样 的 模型 应 用 于 机 器 翻译 中 ， 获 得 了 很 
好 的 效果 。 这 意味 着 ， 语 言 符 号 的 离散 性 这 一 特性 ， 在 目 然 语言 计算 机 
处 理 的 实践 中 已 经 得 到 了 证 实 。 
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语言 的 句子 是 无 穷 无 尽 的 ， 而 语法 规则 却 是 有 限 的 ， 人 们 之 所 以 能 
够 借助 于 有 限 的 语法 规划 ， 造 出 无 穷 无 尽 的 句子 来 ， 其 原因 束 在 于 语言 
符号 具有 递归 性 。 





语言 符号 的 这 种 递归 性 ， 在 不 同 的 语言 里 表现 不 尽 相 同 。 汉 语 的 句 
法 构造 的 递归 性 突出 地 表现 为 句法 成 分 所 特有 的 套 登 现象 。 在 汉语 里 ， 
由 实 词 和 实 词性 词语 组 合 而 成 的 任何 一 种 类 型 的 句法 结构 ， 其 组 成 成 分 
本 身 ， 义 可 以 由 该 类 型 的 句法 成 分 充任 ， 而 无 须 任 何 的 形态 标志 。 这 种 
套 登 现象 在 主 谓 结构 、 仿 正 结 构 、 述 宾 结 构 、 述 补 结构 、 联 合 结构 、 复 
请 结构 中 都 是 存在 的 。 这 是 由 语言 符 写 的 递归 性 导致 的 汉语 语法 的 一 个 
重要 特点 。 














例如 ， 在 句子 “他 嗓子 疼 ”， 中 ，“ 嗓 子 / 疼 "是 主 调 结 构 ， 这 个 主 谓 结 
构 套 登 在 “他 嗓子 疼 中 做 谓语 ， 与 “他 "又 构成 一 个 更 大 的 主 谓 结构 “他 / 
嘻 子 疼 "， 这 是 主 谓 结构 的 套 始 现象 。 又 如 ， 在 短语 “北大 数学 老 
师 " 中 ，“ 数 学 /老师 "是 偏 正 结 构 ， 这 个 偏 正 结 构 套 赤 在 “北大 数学 才 
师 " 中 ， 与 它 前 面 的 名 词 “ 北 大 ”又 构成 一 个 更 大 的 偏 正 结构 “北大 /数学 老 
师 "， 这 是 偏 正 结构 的 套 琶 现象 。 这 些 套 琶 现象 都 反映 出 汉语 语法 的 闻 
归 性 特点 。 





在 上 自然 语言 处 理 的 研究 中 ， 语 言 符 号 的 递归 性 起 着 很 大 的 作用 。 机 
aR PENSE), wee a FORA ANAS, WARE, A 
动 地 转换 为 目标 语言 中 无 限 数目 的 句子 。 如 果 机 器 翻译 的 规则 系统 不 充 
分 利用 语言 符号 的 递归 性 ， 要 实现 这 样 的 转换 是 非常 困难 的 ， 其 至 是 不 
可 能 的 。 





蛮 姆 斯 基 在 《 乔 姆 斯 基 语 言 理论 介绍 》 一 书 的 序言 中 指出 ， 早 在 19 
世纪 初 ， 德 国 杰出 的 语言 学 家 和 人 文学 者 洪 堡 (CW. V. Humboldt) 就 观 


察 到 “语言 是 有 限 手段 的 无 限 运用 ”。 但 是 ， 由 于 当时 尚未 找到 能 揭示 这 
种 理解 所 含 的 本 质 内 容 的 技术 工具 和 方法 ， 洪 堡 的 论断 还 是 不 成 熟 的 。 





那么 ， 究 竟 应 该 如 何 来 理解 “语言 是 有 限 手 段 的 无 限 运 用 呢 ? Fa 
斯 基 指 出 :“ 一 个 人 的 语言 知识 是 以 东 种 方式 体现 在 人 脑 这 个 有 限 的 机 
体 之 中 的 ， 因 此 语言 知识 就 是 一 个 由 某 种 规则 和 原则 构成 的 有 限 系统 。 
但 是 一 个 会 说 话 的 人 却 能 讲 出 并 理解 他 从 来 未 听 到 过 的 句子 及 和 我 们 所 
听 到 的 不 十 分 相似 的 句子 。 而 且 ， 这 种 能 力 是 无 限 的。 如 果 不 受 时 间 和 
注意 力 的 限制 ， 那 么 由 一 个 人 所 获得 的 知识 系统 规定 了 特定 形式 、 结 构 
和 意义 的 句子 的 数目 也 将 会 是 无 限 的 。 不 难看 到 这 种 能 力 在 正常 的 人 类 
生活 中 得 到 自由 的 运用 。 我 们 在 日 常生 活 中 所 使 用 和 理解 的 句子 范围 是 
极 大 的 ， 无 论 就 其 实际 情况 而 言 还 是 为 了 理论 上 描写 的 需要 ， 我 们 有 理 
由 认为 人 们 使 用 和 理解 的 句子 的 范围 都 是 无 限 的 。”D 

















那么 ， 怎 样 来 刻画 语言 这 个 无 限 集 的 成 分 组 成 情况 呢 ? 
我 们 可 以 把 语言 中 所 有 的 元 系列 成 一 个 表 ， 进 行 简 单 枚 举 。 例 如 ， 
L={ọ, a, b, aa, ab, ...} 


这 样 的 刻画 办 法 ， 把 后 面 一 大 部 分 东西 省 略 控 了 ， 后 面 未 列 出 的 部 
分 ， 只 好 由 我 们 根据 给 出 的 少量 的 元 素 去 想象 ， 这 样 的 刻画 办 法 显然 是 
不 好 的 。 它 不 能 体现 “有 限 手 段 的 无 限 运 用 ”这 一 原则 。 


我 们 应 该 采用 递归 的 方法 来 刻画 语言 ， 为 此 提出 如 下 的 公理 系统 的 
定义 。 





一 个 公理 系统 是 一 个 有 序 三 元 组 (A, S, P) ， 其 中 ，A 是 符号 的 有 
限 集 ， 叫 做 字母 表 ; S 是 A 上 的 符号 串 的 集合 ， 叫 做 公理 ;了 是 在 由 A 中 








的 符号 组 成 的 符号 串 上 的 n 位 关系 的 集合 ，n>2《“ 即 P 中 的 n 元 组 至 少 必 须 
是 有 序 对 ) ，P 的 元 叫做 生成 式 或 推理 规则 。 根 据 这 样 的 公理 系统 ， 我 
们 便 可 以 从 公理 S$ 出 发 ， 多 次 使 用 推理 规则 P， 在 符号 集 A 上 递归 地 生成 
语言 中 的 句子 ， 实 现 * 有 限 手 段 的 无 限 运用 ”。 因 而 这 个 关于 公理 系统 的 
定义 是 体现 了 递归 的 原则 的 。 


如 果 我 们 把 公理 系统 中 的 A 想象 成 前 面 所 述 的 短语 结构 语法 中 的 非 
终极 符号 VN 和 终极 符号 Vi 的 集合 ， 把 S 想 象 成 短语 结构 语法 中 的 初始 
符号 Ss， 把 Pp 想象 成 短语 结构 语法 中 的 重 写 规则 P， 那 么 ， 我 们 马上 就 可 
以 发 现 ， 短 语 结构 语法 与 公理 系统 是 十 分 相似 的 。 所 以 我 们 可 以 说 ， 短 
语 结构 语法 是 采用 体现 了 递归 原理 的 公理 化 方法 来 描述 自然 语言 的 语 
i. 














现在 ， 目 然 语言 处 理 的 理论 业已 严格 证 明 ， 弄 姆 斯 基 的 形式 语法 实 
际 上 等 价 于 数学 上 的 一 种 公理 系统 一 一 “ 半 图 龙 系 统 ”(semi-Thue 
system) ， 这 种 形式 语法 不 过 是 数学 中 的 公理 系统 理论 在 目 然 语言 分 析 
中 的 应 用 而 已 ， 语 言 的 生成 过 程 完 全 可 以 通过 公理 系统 这 一 形式 化 的 手 
段 得 到 严格 的 描述 。 正 因为 如 此 ， 弄 姆 斯 基 的 形式 语言 理论 ， 才 会 既 在 
目 然 语 言 的 信息 处 理 中 ， 又 在 计算 机 程序 语言 的 设计 中 ， 得 到 如 此 广泛 
的 应 用 。 











所 以 ， 我 们 认为 ， 语 言 符 号 的 递归 性 ， 是 反映 了 语言 符号 本 质 的 叉 
一 个 特点 。 目 然 语言 处 理 深 化 了 我 们 对 语言 符号 的 递归 性 的 认识 ， 普 通 
语言 学 的 理论 对 此 应 该 给 以 足够 的 重视 。 








第 了 五， 语言 付 写 的 随机 性 


过 绪 尔 在 《普通 语言 学 教程 》 中 ， 把 语言 现象 分 为 言语 活动 
(language) 、 言 语 (parole) 和 语言 (langue) 三 样 东 西 ， 它 们 之 间 是 
彼此 联系 而 又 相互 区 别 的 。 





他 指出 ,，“ 言 语 活 动 是 多 方面 的 、 性 质 复杂 的 ， 同 时 器 着 物理 、 生 
理 和 心理 几 个 领域 ， 它 还 属于 个 人 的 领域 和 社会 的 领域 。 我 们 没 法 把 它 
归 入 任何 一 个 人 文 事实 的 范畴 ， 因 为 不 知道 怎样 去 理 出 它 的 统一 
体 。” 因 此 , “言语 活动 的 研究 就 包含 两 部 分 : 一 部 分 是 主要 的 ， 它 以 实 
质 上 是 社会 的 、 不 依赖 于 个 人 的 语言 为 研究 对 象 ， 这 种 研究 纯粹 是 心理 
的 ; 男 一 部 分 是 次 要 的 ， 它 以 言语 活动 的 个 人 部 分 ， 即 言语 ， 其 中 包括 
音 ， 为 研究 对 象 ， 它 是 心理 :物理 的 。” 





“把 语言 和 言语 分 开 ， 我 们 一 下 子 就 把 〈1) 什么 是 社会 的 ， 什 么 是 
个 人 的 ; D 什么 是 主要 的 ， 什 么 是 从 属 的 和 多 少 是 偶然 的 分 开 来 


他 指出 ，“ 语 言 是 一 种 表达 观念 的 符号 系统 ， 因 此 ， 可 以 比 之 于 文 
字 、 欧 哑 人 的 字母 、 象 征 仪式 、 礼 节 形式 、 军 用 信号 等 等 ， 等 等 。 它 只 
是 这 些 系统 中 最 重要 的 。* 而 言语 则 * 是 人 们 说 话 的 总 合 "， 它 包括 言语 
行为 的 过 程 ( 也 就 过 程 》 和 言语 行为 的 结果 (也 就 是 口头 的 或 书面 的 言 
语 作品 ) 。 














索 绪 尔 把 语言 比 作 乐章 ， 把 言语 比 作 演 奏 ， 把 语言 和 言语 的 关系 比 
喻 为 乐章 和 演奏 的 关系 。 他 说 ,，“ 在 这 一 方面 ， 我 们 可 以 把 语言 比 之 于 
交响乐 ， 它 的 现实 性 是 跟 演奏 方法 无 关 的 ; 演奏 交响 乐 的 乐师 可 能 会 犯 
的 错误 绝 不 会 损害 这 种 现实 性 。” 这 是 一 个 非常 贴切 的 比喻 。( 索 绪 
尔 ， 中 译本 ，1980) 


在 索 绪 尔 关 于 语言 和 言语 区 分 的 理论 的 影响 下 ， 弄 姆 斯 基 提 出 ， 必 
须 把 说 具体 语言 的 人 对 这 种 语言 的 内 在 知识 和 他 有 具体 使 用 语言 的 行为 区 
别 开 来 ， 并 把 前 者 叫做 语言 能 力 (competence) ， 后 者 叫做 语言 运用 
(performance) 。 我 们 认为 : 乔 姆 斯 基 的 语言 能 力 ， 大 体 上 相当 于 索 绪 
尔 的 语言 ， 乔 姆 斯 基 的 语言 运用 ， 大 体 上 相当 于 索 绪 尔 的 言语 。 








在 言语 (或 语言 运用 ) 中 ， 当 我 们 用 语言 来 进行 交际 活动 的 时 候 ， 
有 的 语言 成 分 使 用 得 多 一 些 ， 有 的 语言 成 分 使 用 得 少 一 些 ， 各 个 语言 成 
分 的 使 用 并 不 是 完全 确定 的 ， 这 种 不 确定 性 ， 就 是 语言 符号 的 随机 性 。 
我 们 在 学 习 语 言 时 常常 感到 语言 规则 中 总 是 有 许多 的 例外 ， 这 些 例外 ， 
就 是 由 于 语言 符号 的 随机 性 造成 的 。 所 以 ， 语 言 符号 的 随机 性 ， 也 应 该 
是 语言 的 本 质 属性 之 一 。 

















正 因为 语言 符号 具有 随机 性 ， 所 以 我 们 很 难 用 确定 性 的 规则 来 描述 
它 。 语 言 使 用 中 大 量 的 例外 现象 使 语法 学 家 们 伤 透 脑筋 ， 有 的 语法 学 家 
甚至 因此 而 误 入 迷津 ， 以 偏 概 全 ， 得 出 了 错误 的 结论 。 


其 实 ， 对 于 言语 活动 这 样 的 随机 现象 来 说 ， 仅 以 十 个 例子 或 十 个 反 
例 来 作为 菜 条 语法 规则 和 破 或 立 的 标准 ， 看 来 未 必 恰 当 。 最 好 的 办 法 还 是 
采用 统计 数学 的 方法 来 对 交际 活动 中 所 出 现 的 各 种 语言 现象 进行 描述 。 
如 宁 我 们 从 语言 学 理论 的 高 度 ， 把 随机 性 看 成 是 语言 符号 本 吴 的 一 种 目 
然 特 性 ， 并 采用 恰当 的 数学 工具 来 描述 这 种 随机 性 ， 使 用 计算 机 来 进行 
一 般 手 工 操作 所 难于 胜任 的 大 量 的 统计 计算 和 分 析 ， 那 么 ， 我 们 对 于 语 
法 规则 中 的 各 种 各 样 的 例外 情况 ， 也 就 不 会 再 感到 迷惑 不 解 和 束手无策 
了 ， 因 为 这 些 例 外 的 情况 正 是 由 于 语言 符号 本 号 的 随机 性 这 一 个 特点 而 
形成 的 。 























从 目 然 语言 处 理 的 角度 看 来 ， 在 语言 成 分 的 出 现 这 一 个 随机 事件 





中 ， 随 机 事件 A 与 条 件 组 S 之 间 虽 然 没 有 完全 确定 的 联系 ， 但 是 ， 它 们 
之 间 却 有 着 统 计 上 的 联系 。 尽 管 当 条 件 组 $ 实 现 一 次 时 ， 事 件 A 可 能 有 
生 ， 也 可 能 不 发 生 。 但 是 ， 如 宋 条 件 组 S 实 现 多 次 ， 事 件 A 的 发 生 就 有 
独 茶 种 规律 性 ， 这 种 规律 性 惑 是 统计 规律 性 。 目 然 语 言 处 理 认 为 ， 那 些 
无 一 例外 的 必然 的 规律 性 ， 只 不 过 是 这 种 统计 规律 性 的 补充 和 表现 形式 
AXI. 





近年 来 ， 不 少 的 语言 学 家 开始 认识 到 语言 符号 的 这 种 随机 性 ， 目 党 
地 使 用 统计 方法 来 描述 自然 语言 现象 ， 这 是 令 人 可 喜 的 。 在 计算 语言 学 
中 ， 根 据 语言 符号 的 随机 性 ， 已 经 在 计算 机 上 作 了 很 多 统计 工作 ， 成 果 
累 昧 。 我 国学 者 进行 的 汉字 字 频 统计 、 汉 字 部 件 统计 、 汉 字 笔 画 统计 、 
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的 统计 结果 ， 推 进 了 我 国 自然 语言 处 理 研究 的 发 展 。 这 些 事实 说 明 ， 一 
旦 我 们 在 理论 上 自觉 地 认识 到 语言 符 写 的 随机 性 ， 束 会 产生 出 巨大 的 物 
质 力量 。 语 言 学 的 理论 对 于 语言 研究 的 实践 确实 有 者 重要 的 指导 意义 。 














语料库 语言 学 的 研究 ， 可 以 帮助 我 们 从 大 量 的 经 过 标注 的 语言 素材 
中 ， 友 现 语言 的 统计 规律 ， 并 将 其 提炼 为 日 然 语 言 处 理 的 规则 。 这 种 研 
究 生 动 地 体现 了 索 绪 尔 所 指出 语言 和 言语 的 相互 关系 。 大 量 的 语言 素材 
相当 于 索 绪 尔 定义 的 言语 ， 语 言 学 规则 相当 于 索 绪 尔 定义 的 语言 ， 通 过 
对 言语 的 统计 研究 ， 束 可 以 发 现 语言 的 规律 。 这 是 语言 符号 随机 性 的 又 











语言 成 分 在 交际 活动 中 的 出 现 是 一 个 随机 事件 ， 语 言 成 分 之 间 彼 此 
有 着 相 互 的 影响 和 制约 ， 也 就 是 说 ， 前 后 的 语言 符 写 具有 相关 性 ， 我 们 
根据 前 面 出 现 的 符 写 ， 常 党 可 以 预测 后 面 的 符号 出 现 的 可 能 性 。 当 说 话 
不 清楚 或 文字 有 错落 时 ， 我 们 往往 可 以 根据 前 后 文 来 理解 话语 或 文章 的 
含义 。 就 是 当 茶 个 汉字 或 拉丁 字母 不 清楚 时 ， 我 们 根据 它们 的 残存 部 分 
各 币 束 可 以 推 基文 字 的 全 形 。 在 有 噪声 或 干扰 时 ， 我 们 仍然 有 能 力 根据 
己 经 听 清 楚 的 部 分 来 识别 那些 不 清晰 的 语音 。 这 些 事实 说 明 ， 并 不 是 语 
言 中 的 一 切 成 分 对 于 传达 语言 符号 整体 所 包含 的 信息 都 是 绝对 不 可 缺少 
的 ， 就 是 缺少 了 茶 些 部 分 ， 语 言 本 身 有 能 力 把 这 些 缺 少 的 部 分 补充 和 恢 
复出 来 。 这 意味 痢 ， 语 言 符号 具有 元 余 性 。 这 种 元 余 性 是 必要 的 和 有 葡 
的 ， 它 保证 了 不 理想 的 环境 下 《〈 如 书面 文章 中 有 遗漏 ， 谈 话 时 有 嗜 杂 
声 ， 书 写 的 字母 不 清楚 ， 发 音 不 清晰 ) ， 仍 能 发 挥 其 交际 功能 。 因 此 ， 
我 们 不 能 认为 元 余 度 就 真 的 是 语言 中 “元 余 ” 的 或 不 必要 的 东西 。 恰 恰 相 
反 ， 这 种 见 余 度 是 语言 传递 信息 时 必 不 可 少 的 。 没 有 元 余 度 的 语言 在 实 
际 上 是 无 法 理解 的 ， 因 为 日 常 语 言 总 有 很 大 的 灵活 性 ， 要 想 理解 句子 的 
意思 ， 就 必须 考虑 到 字母 在 单词 中 的 位 置 和 单词 在 句子 中 的 上 下 文 关 
系 。 我 国 著 名 语言 学 家 李 荣 教 授 建 议 把 “ 见 余 度 ” 改 为 “ 羡 余 度 ”， 这 是 很 
有 道理 的 。 事 实 上 ， 只 要 语言 有 结构 性 就 会 有 元 余 度 ， 语 言 符号 的 元 余 
度 就 是 语言 的 结构 性 在 语言 使 用 过 程 中 的 体现 。 这 样 看 来 ， 语 言 符号 的 
几 余 性 也 应 该 是 语言 符号 的 一 个 重要 特性 ， 它 与 语言 符号 的 随机 性 一 
样 ， 无 时 无 刻 不 在 语言 的 使 用 中 表现 出 来 。 






















































































自然 语言 处 理 已 经 根据 各 种 言语 统计 的 结果 ， 计 算出 世界 上 许多 种 
语言 的 元 余 度 。 现 在 世界 上 各 种 语言 的 元 余 度 中 ， 计 算得 比较 精确 的 是 
Seis FA CN. Burton) MEHE CJ. Licklider) 两 人 通过 大 量 的 计 
算 求 出 ， 英 语 书面 语 的 宛 余 度 在 67% 到 80% 之 间 。 汉 字 是 一 个 大 字符 
集 ， 要 直接 计算 汉语 书面 语 的 多余 上 度 ， 其 工作 量 是 非常 大 的 ， 所 以 至 今 

















为 止 ， 我 们 还 不 能 直接 来 计算 汉语 书面 语 的 元 余 度 ， 只 有 通过 间接 的 方 
法 来 估算 。 我 国 计 算 语言 学 研究 者 现 已 估算 出 汉语 书面 语 的 元 余 度 在 
569%6 与 74% 之 间 ， 其 平均 值 约 为 66%。 可 以 看 出 ， 汉 语 书 面 语 的 宛 余 

度 ， 其 上 下 限 都 略 低 于 英语 书面 语 的 见 余 度 。 


汉语 的 见 余 度 比 英语 低 一 些 ， 说 明 汉语 比 英 语 “ 简 练 ” 一 些 ， 而 “ 难 
展 一些。 所谓“ 简练” 一些， 就 是 对 同一 篇 文章 ， 中 文 将 比 英 文 短 一 
些 ， 而 所 谓 “ 难 全 "一些 ， 就 是 指 从 平均 的 角度 看 ， 文 章 中 对 于 同样 长 的 
字母 序列 ， 在 语义 方面 给 入 们 的 预示 能 力 差 一 些 ， 或 者 说 ， 它 的 语义 更 
难 捉摸 一 些 ， 语 义 的 不 肯定 性 程度 更 大 一 些 。 上 自然 语言 处 理 的 这 些 研 完 
成 果 ， 与 我 们 对 于 汉语 身 语 的 实际 体会 是 一 致 的 。 这 说 明 ， 目 然 语言 
处 理 对 于 语言 符号 的 元 余 性 的 认识 是 正确 的 。 

















第 七 ， 语 言 付 写 的 模糊 性 





索 绪 尔 完 全 没有 认识 到 语言 符号 具有 模糊 性 。 他 在 《普通 语言 学 教 
程 》 中 写 道 : “从 心理 方面 看 ， 思 想 离 开 了 词 的 表达 ， 只 是 一 团 没 有 定 
形 的 、 模 糊 不 清 的 浑然 之 物 。 哲 学 家 和 语言 学 家 和 一 致 承 认 ， 没 有 符号 
的 帮助 ， 我 们 就 没 法 清楚 地 、 坚 实地 区 分 两 个 观念 。 思 想 本 身 好 像 一 团 
星云 ， 其 中 没有 必然 划 定 的 界限 。 预 先 确定 的 观念 是 没有 的 。 在 语言 出 
现 之 前 ， 一 切 都 是 模糊 不 清 的 。?” 他 又 说 , “语言 对 思想 所 起 的 独特 作用 
不 是 为 表达 观念 而 创造 一 种 物质 的 声音 手段 ， 而 是 作为 思想 和 声音 的 媒 
介 ， 使 它们 的 结合 必然 导致 各 单位 之 间 彼 此 划 清 界限 。”( 索 绪 尔 ， 中 
译本 ，1980) 








显而易见 ， 索 绪 尔 认为 ， 正 是 由 于 语言 的 作用 ， 才 使 模糊 的 思想 和 





声音 的 各 个 单位 之 间 清 晰 起 来 。 在 索 绪 尔 看 来 ， 语 言 本 身 是 谈 不 上 模糊 
性 的 。 


关于 语言 的 模糊 性 问题 ， 在 自然 语言 的 计算 机 处 理 出 现 之 前 ， 就 有 
不 少 学 者 进行 过 探索 和 研究 。 英 国 著 名 哲学 家 罗素 (B. Russell) 于 1923 
年 写 过 一 篇 《 论 模 糊 性 》 的 论文 。 





他 指出 : “整个 语言 都 或 多 或 少 是 模糊 的 。”? 并 且 举 例 论 证 了 这 个 问 
题 ;“ 由 于 颜色 构成 一 个 连续 统 ， 因 此 颜色 有 深 有 浅 ， 对 于 这 些 深浅 不 
同 的 颜色 ， 我 们 就 拿 不 准 是 否 把 它 称 为 红色 。 这 不 是 因为 我 们 不 知 
道 ' 红 色 : 这 个 词 的 意义 ， 而 是 因为 这 个 词 的 使 用 范围 在 本 质 上 是 不 确定 
的 。 这 上 自然 也 是 对 人 变 成 秃子 这 个 古老 之 谜 的 回答 。 假 定 一 开始 他 不 是 
秃子 ， 他 的 头发 一 根 根 地 脱落 ， 最 后 才 变 成 秃 于 。 于 是 有 人 争辩 说 ， 一 
定 有 一 根 头 发 ， 由 于 这 根 头 发 的 脱落 ， 便 使 他 变 成 秃子 。 这 种 次 法 目 然 
是 还 唐 的 。 秃 头 是 一 个 模糊 概念 ; 有 一 些 人 肯定 是 秃子 ， 有 一 些 人 肯定 
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不 是 ， 这 是 不 对 的 。 排 中 律 用 于 精确 符号 时 是 正确 的 ;但 是 当 符 号 模糊 
的 时 候 ， 排 中 人 律 就 不 适用 了 。 事 实 上 ， 所 有 的 符号 都 是 模糊 的 。 所 有 描 
述 感觉 特性 的 词 ， 都 具有 “红色 ”这 个 词 所 具有 的 同样 的 模糊 性 。”( 罗 
素 ， 中 译本 ，1990) 。 罗 系 这 篇 论文 对 传统 逻辑 学 中 的 排 中 律 提 出 挑 
战 ， 从 哲学 和 逻辑 学 上 为 模糊 理论 页 定 了 基础 。 



































1933 年 ， 美 国语 言 学 家 布 龙 菲 尔 德 (CL. Bloomfield) 在 《语言 论 》 
一 书 中 ， 也 指出 了 自然 语言 中 存在 着 模糊 现象 。 











他 说 :“ 我 们 可 以 根据 化 学 或 矿物 学 来 给 矿物 的 名 称 下 定义 ， 正 如 
我 们 说 ‘ 盐 ’ 这 个 词 的 一 般 的 意义 是 毛 化 钠 '”(NaCl〉， 我 们 也 可 以 用 植 
物 学 或 者 动物 学 的 术语 来 给 植物 或 者 动物 的 名 称 下 定义 ， 可 是 我 们 没有 





一 种 准确 的 方法 来 给 像 ' 爱 :或 者 “ 恨 ' 这 样 一 些 词 下 定义 ， 这 样 一 些 词 涉 
及 到 好 些 还 没有 准确 地 加 以 分 类 的 环境 一 一 而 这 些 难以 确定 意义 的 词 在 
词汇 里 占 了 绝 大 多 数 。” 他 进一步 指出 :“ 此 外 ， 即 使 我 们 有 一 些 科学 的 
(也 就 是 普通 被 承认 的 而 又 不 准确 的 ) 分 类 ， 我 们 也 还 往往 发 现 语言 里 
的 意义 跟 这 种 分 类 并 不 一 致 。”《〈 布 龙 菲 尔 德 ， 中 译本 ，1980) 





这 些 研究 都 指出 了 自然 语言 里 存在 的 模糊 现象 。 直 到 1965 年 ， 车 名 
数学 家 但 德 (L. A. Zadeh) 及 表 了 《模糊 集合 》 的 著名 论文 后 ， 模 糊 性 
的 概念 才 第 一 次 找到 了 完善 的 表示 方法 。 他 的 研究 是 首先 从 观察 语言 符 
号 的 模糊 性 开始 的 。 例 如 ,，“ 老 年 ”这 个 概念 束 具 有 模糊 性 。 七 十 岁 算 不 
GEE? URE, 那么 ， 六 十 岁 算 不 算 “ 老 年 ”? APO RRS 
£p"? 这 是 很 难 精确 地 回答 的 。 查 德 把 “老年 "看 成 是 建立 在 “年 龄 ”这 个 
论 域 上 的 集合 ， 而 把 七 十 岁 、 六 十 岁 、 了 五 十 岁 都 看 成 这 个 集合 中 的 元 
素 ， 这 样 ， 就 可 以 研究 这 些 元 系 相 对 于 “老年 ”这 个 集合 的 隶属 关系 。 这 
种 隶属 关系 ， 很 难 用 经 典 集合 论 中 的 “属于 ”或 “不 属于 ” 茶 个 集合 的 办 法 
来 描述 ， 而 可 以 用 在 多 大 程度 上 属于 某 个 集合 的 办 法 来 描述 。 也 就 是 
次 ， 一 个 模糊 集合 S 的 特征 ， 是 存在 着 一 个 隶属 函数 hH， 对 于 论 域 中 的 每 
一 个 元 素 x， 都 有 一 个 确定 的 值 jy QD ， 这 个 值 刻 画 着 元 素 x 隶 属于 模糊 
集合 S 的 程度 。Zadeh 把 普通 集 拓 广 为 模糊 集 ， 为 模糊 数学 真 定 了 基础 ， 
这 一 开创 性 的 工作 不 仅 拓 三 了 普通 数学 的 研究 领域 ， 而 且 开 辟 了 在 软 、 
便 科学 (包括 语言 学 ) 中 提高 数学 适用 性 的 广阔 途径 。 




















应 该 强调 指出 的 是 ， 模 糊 数学 的 产生 和 发 展 ， 首 先是 从 观 硅 和 研究 
自然 语言 中 的 各 种 模糊 现象 开始 的 。 查 德 本 人 在 《模糊 集 》 一 文中 曾 明 
确 地 说 明 :“ 模 糊 集 合 论 的 这 个 分 支 的 起 源 是 从 语言 学 方法 的 引入 开始 
的 ， 它 转 而 又 推动 了 模糊 逻辑 的 发 展 .…... 在 即将 到 来 的 时 代 ， 我 相信 近 
似 推理 和 模糊 逻辑 将 发 展 成 为 一 个 重要 领域 ， 从 而 变 成 研究 哲学 、 语 言 


学 、 心 理学 、 社 会 学 、 管 理科 学 、 医 学 诊断 、 判 别 分 析 以 及 其 它 领 域 的 
新 方法 的 基础 。”( 碍 德 ， 中 译本 ，1981) 模糊 语言 的 研究 已 引起 了 语 
言 学 家 们 的 浓厚 兴趣 。1972 年 在 美国 纽约 举行 的 词典 学 国际 讨论 会 上 ， 
美国 语言 学 家 雷 柯 夫 〈G. Lakoff) 作 了 一 个 在 词汇 研究 方面 应 用 模糊 数 
学 的 报告 。 雷 柯 夫 高 兴 地 说 :“ 我 们 现在 有 了 一 个 “可爱 的 术语 ' 一 一 模糊 
集合 "”。 他 在 讨论 会 结束 时 又 指出 ， 模 糊 性 将 成 为 语言 学 研究 的 一 个 主 
要 领域 。 








语言 符号 的 模糊 性 不 仅 存 在 于 单词 的 含义 方面 ， 语 法 方面 也 存在 着 
模糊 性 。 例 如 ， 许 多 语言 中 动词 和 名 词 的 划 界 并 不 十 分 清楚 ， 存 在 
独 “ 亦 此 亦 役 ”的 现象 ， 也 就 是 说 ， 动 词 和 名 词 的 划 界 是 模糊 的 。 糯 国语 
言 学 家 洛斯 (Ross) 提出 了 *“ 动 /名 连续 统 模型 ”， 以 此 描述 英语 中 动词 和 
名 词 的 划 界 问题 。 在 连续 统 的 两 端 分 别 是 纯 动词 和 物质 名 词 ， 它 们 的 界 
线 是 截然 分 明 的 。 但 是 在 这 个 连续 统 两 端的 中 间 ， 则 存在 着 一 系列 界线 
模糊 的 过 渡 类 ， 可 图 示 如 下 : 


动词 性 增加 Be --》 ”名 词性 增加 
m 一 | 一 一 

?li cut hope HOS ii 

dj sed house 质 

i sit chair 名 

hand Tal 





图 1.12 ”英语 中 的 动词 一 名 词 连 续 统 





可 以 看 出 ， 处 于 连续 统 中 间 的 hope〈 和 希望 ) 这 个 词 ， 兼 具 动词 和 名 
词 的 特点 ， 表 现 了 在 词类 归属 上 的 模糊 性 。 英 语 中 的 很 多 词 ， 都 可 以 根 
据 它 们 在 性 质 上 的 差异 来 确定 它们 在 连续 统 上 的 位 置 。 最 近 有 学 者 采用 
这 个 “ 动 /名 连续 统 模型 > 来 解决 汉语 的 动词 和 名 词 的 分 界 问题 ， 取 得 了 较 








满意 的 结果 。 


在 目 然 语 言 处 理 中 ， 上 自然 语言 的 表达 和 理解 技术 是 一 个 十 分 困难 的 
问题 。 学 者 们 已 经 认识 到 ， 这 个 问题 比 他 们 原来 预料 的 更 加 艰难 ， 美 国 
国会 找 术 评价 办 公 室 最 近 指 出 ， 要 使 计算 机 具备 一 个 五 岁 小 孩 的 卓然 语 
言 理解 能 力 说 不 定 是 二 十 年 以 后 的 事 。 自 然 语言 的 表达 和 理解 的 主要 困 
难 在 于 目 然 语言 本 身 的 模糊 性 。 这 种 困难 的 内 在 原因 是 我 们 对 于 人 类 如 
何 贮存 和 处 理 模 糊 信息 的 机 制 还 不 十 分 清楚 ， 外 在 原因 是 我 们 还 没有 一 
种 适合 于 处 理 目 然 语言 的 模糊 信息 的 工具 。 由 模糊 数学 创始 人 碍 德 杀 上 自 
开拓 的 可 能 性 理论 、 模 糊 语言 方法 以 及 由 此 而 产生 的 模糊 语言 思 辑 、 目 
然 语 言语 义 表达 和 近似 推理 ， 已 经 构成 一 个 知识 分 文 ， 正 在 把 死 服 上 述 
目 然 语 言 理解 和 表达 技术 中 的 困难 当 作 目 己 的 研究 目标 ， 目 前 已 取得 了 
令 人 或 舞 的 成 采 。 可 见 ， 目 然 语言 处 理 的 研究 将 会 推动 我 们 更 加 深入 地 
探讨 语言 符号 的 模糊 性 问题 。 
































语言 符号 的 模糊 性 与 语言 符号 的 随机 性 是 两 个 不 同 的 概念 。 


前 面 说 过 的 语言 符号 的 随机 性 是 指 事件 的 发 生 与 否 而 言 ， 但 事件 本 
身 的 含义 是 确定 的 ， 由 于 条 件 不 充分 ， 事 件 的 友 生 与 否 有 多 种 可 能 性 ， 
在 Lo, 1] 上 取 值 的 概率 分 布 函数 就 是 描述 这 种 随机 性 的 ， 它 经 常 表现 
为 字符 或 单词 出 现 概率 的 大 小 。 








语言 符 写 的 模糊 性 是 指 元 系 对 集合 的 隶属 关系 而 言 ， 事 件 本 里 的 含 
义 是 不 确定 的 ， 但 事件 及 生 与 否 是 可 以 确定 的 ， 因 而 元 素 〈 事 件 ) 对 集 
合 的 隶属 关系 是 不 确定 的 ， 在 Lo, 1] 上 取 值 的 隶属 函数 就 是 描写 这 种 
不 确定 性 〈 即 模糊 性 ) 的 ， 它 经 钊 表现 为 单词 含义 对 菏 一 集合 隶属 函数 
值 的 大 小 。 








语言 符号 的 随机 性 放弃 了 "一 因 一 果 ” 的 决定 论 ， 反 映 了 “一 因 多 
打 ” 的 规律 性 ， 因 此 ， 它 是 由 于 因 采 律 破 缺 而 造成 的 一 种 不 确定 性 ， 在 
用 统计 方法 来 描述 目 然 语言 时 ， 是 满足 排 中 律 的 。 


语言 符号 的 模糊 性 摆脱 了 * 非 此 即 彼 ” 的 确定 性 ， 反 映 了 * 亦 此 亦 
彼 ” 的 规律 性 ， 因 此 ， 它 是 由 于 排 中 律 破 缺 而 造成 的 一 种 不 确定 性 。 


研究 语言 符号 的 随机 性 ， 可 以 把 语言 学 的 领域 从 必然 现象 扩大 到 偶 
然 现 象 ， 研 究 语 言 的 模糊 性 ， 可 以 把 语言 学 的 研究 领域 从 清晰 现象 扩大 
到 模糊 现象 。 因 此 ， 语 言 符 号 随机 性 和 模糊 性 的 发 现 ， 都 加 深 了 我 们 对 
于 语言 符号 本 质 的 认识 ， 拓 宽 了 语言 学 的 研究 领域 。 


由 此 可 见 ， 层 次 性 、 非 单元 性 、 离 散 性 、 递 归 性 、 随 机 性 、 元 余 
性 、 模 糊 性 等 七 个 特性 也 是 语言 符号 十 分 重要 的 特性 。 索 绪 尔 提出 的 语 
言 符 号 的 线条 性 可 以 用 更 为 深刻 的 层次 性 来 代 丛 ， 而 他 提出 的 语言 符号 
的 任意 性 ， 确 实 是 “头等 重要 的 “ 文 配 着 整个 语言 学 ”的 原则 。 因 此 ， 
我 们 认为 ， 语 言 符 写 的 特性 除了 上 述 的 七 特性 之 外 ， 还 应 该 加 上 任意 
性 ， 这 样 ， 语 言 符号 就 具有 任意 性 、 层 次 性 、 非 单元 性 、 离 散 性 、 弟 归 
性 、 随 机 性 、 元 余 性 、 模 糊 性 等 共 八 个 特性 。 目 然 语言 处 理 的 发 展 ， 使 
我 们 对 于 语言 符号 的 这 些 特性 的 认识 和 理解 更 为 丰富、 更 为 深刻 了 。 在 
这 种 情况 下 ， 我 们 不 得 不 修正 索 绪 尔 理论 中 已 经 过 时 的 部 分 ， 而 代 之 以 
反映 当前 人 类 对 上 自然 语言 符号 认识 水 平 的 新 理论 。 这 是 自然 语言 处 理 在 
普通 语言 学 的 基本 理论 方面 对 理论 语言 学 提出 的 挑战 。 



































语言 符号 的 任意 性 ， 也 就 是 语言 符 写 的 社会 约定 性 ， 它 反映 了 语言 
符号 的 社会 一 人 文 的 本 质 ， 这 使 我 们 有 可 能 用 社会 科学 的 方法 来 研究 语 
言 。 语 言 符 号 的 层次 性 、 非 单元 性 、 离 散 性 、 递 归 性 、 随 机 性 、 元 余 性 
反映 了 语言 符 吕 的 物质 一 自然 的 本 质 ， 这 使 我 们 有 可 能 用 目 然 科学 的 方 








法 来 研究 语言 。 而 语言 符号 的 模糊 性 ， 则 表现 了 人 类 心智 活动 和 思维 活 
动 的 特点 ， 反 映 了 语言 符号 的 智能 一 心理 的 本 质 ， 这 使 我 们 有 可 能 用 思 
维 科学 的 方法 来 研究 语言 。 这 样 ， 原 来 作为 纯粹 人 文科 学 的 语言 学 ， 在 
计算 机 时 代 便 大 大 地 拓 广 了 它 的 研究 领域 ， 使 它 同 时 跨 着 人 文科 学 、 自 
然 科 学 和 思维 科学 三 个 领域 。 








法 国 著 名 数学 家 阿达 玛 (J. Hadamard) 曾经 说 过 : “语言 学 是 数学 
和 人 文科 学 之 间 的 桥梁 。” 今 天 ， 我 们 可 以 进一步 说 :“ 语 言 学 是 自然 科 
学 、 思 维 科 学 和 人 文科 学 之 间 的 桥梁 。?” 一 向 被 人 们 看 成 是 冷门 的 语言 
学 ， 现 在 已 经 改变 了 它 在 整个 现代 科学 体系 中 的 地 位 ， 正 在 成 长 为 一 门 
带头 的 科学 ， 成 为 现代 科学 技术 研究 的 一 个 热点 。 连 许多 计算 机 专家 也 
认为 ， 电 子 计算 机 软件 也 可 以 看 成 是 一 种 语言 文字 工作 ， 这 是 每 一 个 语 
言 文 字 工 作者 应 该 引 以 为 采 的 。 
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PE ”词汇 目 动 处 理 


第 一 节 ”词汇 是 语言 的 建筑 材料 


英国 功能 语言 学 的 真 基 人 弗 斯 认为 ， 词 汇 是 语言 描述 的 中 心 。1957 
年 ， 弗 斯 首先 提出 了 搭配 和 类 连接 理论 ， 在 某 种 程度 上 将 词汇 内 容 从 语 
法 和 语义 学 中 分 离 出 来 。 





弗 斯 指出 ， 所 谓 “ 搭 配 ”(collocation ) ， 是 指 某 些 词 常 常 跟 某 些 词 
一 起 使 用 。 他 认为 , “意义 取决 于 搭配 ?是 组 合 平面 上 的 一 种 抽象 ， 它 和 
从 “概念 ”上 或 “思维 ”上 分 析 词 义 的 方法 没有 直接 的 联系 。night〈 夜 晚 ) 
的 意义 之 一 是 和 dark) CRE) 的 搭配 关系 ， 而 dark 的 意义 之 一 自然 也 
是 和 night 的 搭配 关系 。 H cow (RE) 是 常常 和 动词 to milk ( 挤 牛 奶 ) 
一 起 使 用 的 。 这 两 个 词 往 往 这 样 搭 配 : They are milking the cows〔 他 们 
给 母 牛 挤 奶 ) ，Cows give milk( 母 牛 提供 牛奶 ) . Ade, tigress CHE 
Ke) lioness CEIF) WLAN Alto milk 搭 配 ， 讲 英语 的 人 不 会 说 ” 
They are milking the tigresses， 或 ”Tigresses give milk。 由 此 可 见 ， 在 搭 
配 时 ，cow 的 形式 意义 与 tigress 和 ]ioness 不 同 。 在 搭配 中 ， 词 汇 意义 起 着 
主要 的 作用 。 





之 后 数 十 年 ， 新 弗 斯 学 者 始终 坚持 以 词汇 研究 为 中 心 ， 强 调 词汇 与 
语法 的 辩证 关系 ， 深 入 发 展 了 弗 斯 的 词汇 理论 。 


19664F,, 64L (Halliday) 提出 词汇 不 是 用 来 填充 语法 确定 的 一 
套 “ 空 位 ”〈slots) ， 而 是 一 个 独立 的 语言 学 层面 ， 词 汇 研究 可 以 作为 对 
语法 理论 的 补充 ， 却 不 是 语法 理论 的 一 部 分 ， 他 主张 把 词汇 从 语法 研究 
中 独立 地 分 离 出 来 。 





近 些 年 来 ， 语 料 库 证 据 文 持 的 词汇 学 研究 于 有 劲 发 展 ， 越 来 越 多 的 实 
证 研究 表明 ， 词 汇 和 语法 在 实现 意义 时 是 交织 一 起 的 ， 必 须 整 合 描述 。 
词汇 是 话语 实现 的 主要 载体 ， 语 法 则 起 到 管理 意义 、 组 合成 份 和 构筑 词 
项 的 作用 。 生 成 语法 学 者 史密斯 其 至 认为 “词汇 是 语言 间 所 有 差异 的 淤 
在 所 在 。 排 除 词汇 差异 这 一 因素 ， 人 类 的 语言 只 有 一 种 。” 乌 








根据 还 原 主义 者 〈reductionist) 的 观点 ， 近 百年 来 自然 科学 发 展 的 
历史 可 以 看 成 是 探索 如 何 使 用 较 小 “ 基 原 ”(primitives〉 的 行为 结合 起 来 
解释 较 大 “结构 ”(structure〉 的 行为 的 历史 。 在 生物 学 中 ， 遗 传 的 性 质 
用 基因 的 行为 来 解释 ， 而 基因 的 性 质 用 脱氧 核糖 核酸 (DNA) 的 行为 来 
解释 。 在 物理 学 中 ， 物 质 被 还 原 为 原子 ， 而 原子 义 被 还 原 为 比 原子 更 小 
的 粒子 。 








在 语言 学 中 ， 也 逃 不 出 这 种 还 原 主 义 思想 的 影响 。 语 言 学 家 可 以 使 
用 语法 范畴 构成 诸如 S WNP VP 这 样 的 语法 规则 ， 把 S 看 成 是 由 NP 和 VP 
组 成 的 ， 或 者 把 S 还 原 为 NP 和 VP， 再 把 NP 和 VP 还 原 成 具体 的 单词 。 


所 有 这 些 都 可 以 把 客观 事物 (object) 想象 成 是 由 某 些 特征 关联 而 
成 的 复杂 特征 的 集合 。 在 这 些 特 征 中 的 信息 用 约束 Cconstraints) 来 表 
示 ， 所 以 这 一 类 的 模型 通常 叫做 “基于 约束 的 形式 化 方法 ”(constraint- 


based formalism) 。 





19004F, SECUS SHH) Be A (Wilhem Wundt) 在 《大 众 心 





理学 》 (Vélkerpsychologie ) 一 书 中 曾经 给 句子 下 过 这 样 的 定义 : 


“Den sprachlichen Ausdruck für die willkürliche Gliederung einer 
Gesammtvorstellung in ihre logische Beziehung zueinander gesetzten 


Bestandteil." 
我 把 这 句 德 文 翻 译 为 如 下 的 中 文 : 


“句子 是 把 完整 的 思想 任意 分 为 它 的 组 成 成 分 并 把 它们 置 于 逻 
辑 关 系 之 中 的 语言 表示 。” 





温 德 的 这 段 话 可 能 是 把 句子 分 割 为 成 分 层次 这 种 还 原 主 义 思想 的 最 
早 论 述 。 





后 来 ， 布 龙 菲 尔 德 在 他 早期 的 著作 《语言 研究 导论 》 (An 
Introduction to the Study of Language , 1914) 中 将 温 德 关于 组 成 性 的 思 
想 引 入 了 语言 学 。1933 年 在 他 的 著作 《语言 论 》 (Language ) RAV 
Jn, “直接 成 分 分 析 法 ”(immediate-constituent analysis) 成 为 美国 结构 
主义 语言 学 研究 中 的 相当 完善 的 方法 。 


从 古典 时 期 开始 的 传统 的 欧洲 语法 着 重 研究 如 何 确定 单词 
Cwords) 之 间 的 关系 ， 而 不 是 研究 确定 成 分 (constituents) 之 间 的 关 
系 。 欧 洲 的 句法 学 家 们 在 诸如 依存 语法 (dependency grammar) 等 形式 
语法 中 ， 强 调 以 词 为 基础 。 

















不 论 是 以 成 分 为 基础 还 是 以 词 为 基础 ， 从 实质 上 说 来 ， 这 些 语言 学 
研究 的 理论 基础 都 是 “还 原 主义 ”(reductionism) 。 


从 词汇 语义 组 成 的 角度 ， 弗 雷 格 (Frege) 提出 了 “组 成 性 原 
则 ”(compositionality principle) 。 弗 雷 格 指出 ， 句 子 的 意义 是 由 组 成 它 


的 各 个 成 分 的 意义 组 合 而 成 的 ， 组 成 成 分 的 意义 决定 了 整个 句子 的 意 
义 ， 组 成 成 分 的 意义 是 句子 的 意义 的 函数 。“ 组 成 性 原则 ”成 为 了 句法 语 
义 分 析 的 一 个 基本 的 方法 论 原则 ， 又 叫做 “ 弗 雷 格 原则 ”(Frege 


Principle) 。 





不 论 从 还 原 主义 的 角度 看 ， 还 是 从 组 成 性 原则 的 角度 看 ， 词 汇 都 是 
组 成 句子 的 基本 成 分 ， 词 汇 是 语言 的 建筑 材料 ， 是 话语 实现 的 主要 载 
体 ， 而 语法 的 作用 则 是 把 词汇 加 以 组 合 ， 构 筑 更 大 的 组 合成 分 。 


单词 本 身 的 语义 信息 是 很 重要 的 ， 根 据 “ 还 原 主 义 ”， 句 子 的 句法 成 
分 可 以 还 原 成 单词 ， 根 据 “ 组 成 性 原则 ”， 句 子 的 语义 是 由 构成 该 句子 的 
单词 的 语义 以 及 这 些 单 词 之 间 的 语义 关系 组 成 的 。 因 此 ， 词 汇 的 分 析 和 
描述 对 于 自然 语言 处 理 是 至 关 重 要 的 ， 我 们 应 当 应 该 重视 词汇 的 研究 ， 
善于 从 词汇 中 发 现 语言 现象 后 面 隐藏 着 的 内 在 规律 。 














美国 经 济 学 家 莱 维 特 (Levit 和 记者 杜 布 尼 〈Dubner) 在 2005 年 
出 版 的 Freakonomics 〈《 魔 鬼 经 济 学 》， 这 是 一 本 畅销 书 ， 发 行 数 百 万 
册 ) 一 书 中 说 明 ， 在 不 动产 的 广告 中 ， 使 用 线性 回归 可 以 用 来 很 好 地 预 
测 房 屋 在 出 售 时 的 价格 是 高 于 还 是 低 于 要 求 的 价格 。 他 们 说 明 ， 如 有 果 在 
英文 的 不 动产 广告 中 出 现 “fantastic( 好 极 了 ) , cute GEAR) , W 
charming (迷人 ) ”这 些 词 语 ， 房 屋 出 售 的 价格 就 往往 会 低 一 些 ， 如 果 
在 英文 的 不 动产 广告 中 出 现 “maple OARD ，granite〈 花 岗 石 ) ”这 样 的 
词语 ， 房 屋 出 售 的 价格 就 往往 会 高 一 些 。 他 们 假定 ， 房 地 产 经 纪 人 使 用 
诸如 “fantastic〈 好 极 了 ) PEE OORT EY Ta TE OR TAR ate Je ES S E 
方面 的 缺陷 。 为 了 便于 讲解 ， 我 们 编 出 了 下 表 中 的 一 些 数据 : 























模糊 形容 词 的 数目 # 房屋 出 售 时 高 于 要 求 价 格 的 数量 


十 0 
3 $1 000 
2 $1 500 
2 $6 000 
1 $14 000 


0 $18 000 
#1 在 不 动产 广告 中 ， 模 糊 形容 词 的 数量 (fantastic, cute, charming) 与 房屋 出 售 时 高 于 要 求 价 


格 的 数量 之 间 的 关系 的 数据 ， 这 些 数 据 是 为 了 便于 讲解 编 出 来 的 ， 并 非 实际 调查 的 结果 。 





















































下 面 用 图 示 对 这 种 情况 加 以 说 明 ，x 轴 表示 特征 《模糊 形 容 词 的 数 
mH) ，y 轴 表示 价格 。 我 们 还 绘 出 了 与 观察 数据 拟 合 得 很 好 的 回归 线 
(regression line) 。 任 何 一 条 直线 的 方程 是 


y=mxtb, 
如 图 中 所 示 ， 直 线 的 斜率 m = -4900， 截 距 为 b = 16550. 
方程 为 
y = -4900x + 16550 


由 此 我 们 可 以 画 出 如 下 的 函数 图 : 


Increase in House Sale Price 





Number of Adjectives 
图 2.1 根据 上 面 表 中 编 出 的 那些 点 的 数据 绘 出 的 图 ， 方 程 为 y = -4900x + 16550. 
































我 们 可 以 想见 ， 这 条 直线 的 两 个 参数 和 斜率 m 和 截 距 b〉 可 以 看 成 
是 我 们 用 来 把 特征 在 这 种 情况 为 xz， 形容 词 的 数量 ) 映射 到 输出 值 
y《 在 这 种 情况 为 价格 ) 的 权 值 的 集合 。 我 们 可 以 使 用 w 代 表 权 值 ， 把 
这 个 线性 方程 表示 如 下 : 


Price = w0 + w1' Num Adjectives 


这 样 一 来 ， 我 们 就 可 以 使 用 线性 方程 从 这 些 形容 词 的 数量 来 估计 房 
屋 的 售 价 。 例 如 ， 如 果 广 告 中 出 现 5 个 形容 词 ， 我 们 可 以 预测 出 房屋 可 
以 售 多 少 价钱 。 


如 果 我 们 使 用 一 个 以 上 的 特征 ， 那 么 ， 线 性 模型 的 能 力 就 会 真正 强 
大 起 来 ， 这 种 使 用 多 个 特征 的 线性 回归 叫做 多 元 线性 回归 (multiple 


linear regression) 。 


房屋 的 最 终 价 格 大 概 还 依赖 于 很 多 其 他 的 因素 ， 例 如 ， 当 前 的 房屋 
抵押 率 、 市 场 上 未 售 房屋 的 数量 ， 等 等 。 我 们 可 以 把 这 些 因 系 作 为 变量 
来 进行 编码 ， 每 一 个 因 和 又 的 重要 程度 就 是 这 些 变量 的 权重 ， 如 下 面 的 方 
程 所 示 : 








价格 = wo tw,” 形容 词 数量 + wy” 抵押 率 + wa ”未 售 房屋 数量 





在 自然 语言 处 理 中 ， 我 们 常常 把 像 “ 形 容 词 的 数量 ”或 “抵押 率 ” 这 样 
的 用 于 预测 的 因素 叫做 特征 (feature〉。 我 们 用 这 些 特征 的 矢量 来 表示 
每 一 个 观察 (每 一 套 待 售 的 房屋 ) 。 假 定 一 套房 屋 在 广告 中 有 一 个 形容 
词 ， 并 且 抵 押 率 为 6.5， 在 该 城市 中 有 10.000 套 未 售 房屋 ， 那 么 ， 该 房屋 
的 特征 矢量 就 是 f =(1,6.5, 10000) 。 假 定 我 们 已 经 从 这 项 工作 中 
学 习 到 的 加 权 矢 量 为 
w = (w, w,, w, w,) = (18000, -5000, -3000, -1.8) 
。 这 样 ， 这 套房 屋 的 预测 价格 的 值 就 采用 把 每 一 个 特征 与 它们 的 加 权 相 
乘 的 方法 来 计算 : 


N 
price = w, + ) w. X f. 
rel 
由 此 可 见 ， 词 汇 中 包含 痢 非 常 丰富 的 内 容 ， 从 中 我 们 可 以 发 现 挖掘 
出 很 多 知识 来 。 词 汇 的 目 动 处理 是 非常 有 使 用 价值 的 。 

















第 二 节 正则 表达 式 


1951F, GE (Kleene) 定义 了 有 限 自 动机 和 正则 表达 式 (regular 
expression， 简 称 RE) ， 并 且 证 明了 二 者 的 等 价 性 。 汤 姆 生 (Ken 
Thompson) 是 首先 研制 正则 表达 式 编译 器 的 学 者 之 一 ，1968 年 ， 他 把 
正则 表达 式 编 译 器 用 于 文本 搜索 。 他 的 文本 搜索 编辑 器 ed 包含 一 
个 “g/regular expression/p” 的 命令 ， 或 者 叫做 通用 正则 表达 式 打 印 命令 ， 
后 来 变 成 了 UNIX grep。 





在 本 市 中 ， 我 们 将 介绍 正则 表达 式 ， 正 则 表达 式 是 描述 文本 序列 的 
标准 记录 方式 。 在 词汇 自动 处 理 的 各 种 类 型 的 应 用 中 ， 痢 使 用 正则 表达 
式 来 描述 文本 中 的 符号 串 ， 正 则 表达 式 在 词汇 自动 处 理 中 起 看 重要 的 作 
用 。 











假定 你 是 美洲 旱 猎 Cwoodchucks) 的 爱好 者 ， 并 且 你 知道 

groundhog 和 woodchuck 是 同一 个 动物 的 不 同名 称 。 如 果 现 在 你 正在 写 一 
篇 关于 woodchucks 这 个 术语 的 论文 ， 你 需要 把 论文 中 所 有 的 woodchucks 
这 个 术语 都 搜索 出 来 ， 并 且 用 woodchucks (groundhogs) 来 蔡 换 
woodchucks， 同 时 ， 你 也 需要 用 单数 形式 的 woodchuck (groundhog) 来 
替换 单数 形式 的 woodchuck。 但 是 你 不 愿意 做 两 次 这 样 的 搜索 ， 而 宁愿 
仅仅 只 写 一 个 单独 的 命令 ; TES ee ees 
woodchuck” 这 样 的 形式 表达 出 来 。 这 时 ， 你 就 需要 使 用 正则 表达 式 。 











如 果 你 想 查 询 在 某 个 文件 中 的 所 有 的 物价 ， 想 看 到 所 有 的 诸如 
$199、$25、$24.99 这 样 的 表示 物价 所 谓 符 号 串 ， 以 便 把 它们 自动 地 从 
价目 表 中 抽取 出 来 。 这 时 ， 你 也 要 用 到 正则 表达 式 的 知识 。 


有 限 状 态 转移 网 络 、 有 限 状 态 转录 机 、 递 归 转 移 网 络 、 扩 充 转移 网 
络 ， 都 是 建立 在 有 限 状 态 自动 机 (finite state automaton) 的 基础 之 上 
的 。 正 则 表达 式 与 有 限 状 态 自动 机 之 间 存 在 着 密切 的 关系 ， 我 们 将 通过 
有 限 状 态 自动 机 来 进一步 说 明 如 何 实现 这 些 正 则 表达 式 。 有 限 状 态 自 动 
机 不 仅 是 一 种 用 来 实现 正则 表达 式 的 数学 工具 ， 而 且 也 是 自然 语言 处 理 
中 最 为 有 用 的 工具 。 




















正则 表达 式 是 一 种 用 于 描述 文本 搜索 符 写 串 的 语言 。 用 来 搜索 诸如 
grep 和 Emac 这 样 的 UNIX 工 具 。 在 Perl， Python， Ruby 和 Java 等 程序 语言 
中 ， 以 及 在 Microsoft ”Word 中 ， 文 本 的 正则 表达 式 几 乎 是 完全 一 样 的 ， 
在 不 同 的 web 搜索 引擎 中 ， 存 在 着 具有 不 同 特征 的 正则 表达 式 。 除 了 这 
些 实际 的 用 处 之 外 ， 正 则 表达 式 还 是 计算 机 科学 和 语言 学 的 一 种 最 重要 
HJ36 LR. 


TEM AA e 19564E B ZG HE SUPE R. “MEM eA SUE FH 
语言 中 用 于 描述 符号 串 (string) 的 简单 类 别 的 一 个 公式 。 符 号 串 是 符 
号 的 序列 ;对 于 大 多 数 的 基于 文本 的 检索 技术 来 说 ， 符 号 串 就 是 字母 数 
PR FR. HUP. SA. X€. HAAS) NERS. ERT MA 
的 检索 技术 中 ， 一 个 空白 相当 于 一 个 字符 ， 它 与 其 他 字符 是 同样 看 待 
的 ， 我 们 用 符号 一 来 表示 空白 。 


从 形式 上 说 ， 正 则 表达 式 是 用 来 刻画 符号 串 集 合 的 一 个 代数 表述 。 
因此 ， 它 可 以 用 于 描述 符号 串 的 搜索 ， 也 可 以 用 于 以 形式 的 方法 定义 一 
种 语言 。 我 们 将 首先 讲述 如 何 把 正则 表达 式 用 来 描述 文本 的 搜索 ， 然 后 
逐渐 讲解 正则 表达 式 的 其 他 的 用 途 。 由 于 普通 的 文本 处 理 程 序 与 正则 表 
达 式 的 大 多 数 句 法 是 一 致 的 ， 这 样 我 们 就 可 以 把 它 扩充 到 UNIX 和 
Microsoft Word 的 正则 表达 式 。 


正则 表达 式 的 搜索 要 求 有 一 个 我 们 试图 搜索 的 模式 (patternn〉 和 一 
个 被 搜索 的 文本 语料库 〈corpus) 。 正 则 表达 式 的 搜索 函数 将 对 整个 的 
语料库 进行 搜索 ， 并 返回 包含 该 模式 的 所 有 文本 。 在 诸如 搜索 引擎 这 样 
的 信息 检索 系统 (Information Retrieval， 简 称 IR) 中 ， 文 本 就 是 整个 的 
文档 或 Web 的 网 页 。 在 一 个 词 处 理 系统 中 ， 文 本 可 以 是 独立 的 单词 ， 或 
者 是 文档 行 。 因此， 如 果 给 出 一 个 搜索 模式 ， 那 么 ， 搜 索引 人 苟 返 回 的 就 
是 文档 行 。 下 面 我 们 将 用 下 划 线 强调 模式 中 与 正则 表达 式 相 匹配 的 部 
分 。 对 于 一 个 正则 表达 式 来 说 ， 搜 索 可 以 返回 所 有 的 匹配 ， 也 可 以 只 返 
回 第 一 个 匹配 。 这 里 只 显示 第 一 个 匹配 。 











下 面 我 们 介绍 正则 表达 式 中 常用 的 符号 。 
e XX Al 线 ec p» 


最 简单 的 正则 表达 式 是 由 简单 字符 构成 的 一 个 序列 。 例 如 ， 要 搜索 
Buttercup 我 们 就 键入 /Buttercup/ 这 个 正则 表达 式 进行 搜索 。 这 样 ， 正 则 
表达 式 /Buttercup/ 就 与 语料库 中 包含 子 字 符 串 Buttercup 的 任何 字符 串 相 
匹配 ， 例 如 ， 字 符 串 行 “Im called little Buttercup”( 我 们 假定 在 这 个 搜索 
应 用 中 返回 整个 的 行 ) ， 就 可 以 搜索 到 Buttercup 。 


今后 ， 我 们 将 在 正则 表达 式 的 前 后 加 和 斜 线 “%”*， 以 便 区 分 什么 是 正则 
表达 式 ， 什 么 是 模式 。 之 所 以 使 用 斜 线 ， 是 因为 这 种 表示 方法 是 在 Perl 
语言 中 使 用 的 ， 但 在 这 种 表示 方法 中 ， 和 斜 线 并 不 是 正则 表达 式 的 一 部 


Ths 





搜索 符号 串 可 能 只 包含 一 个 单独 的 字母 (如 /! D ， 或 者 包括 字母 





序列 “如 /urgy) 。 我 们 在 与 正则 表达 式 相 匹配 的 第 一 个 例子 下 面 加 了 下 
划 线 《尽管 实际 上 也 可 以 选择 返回 比 第 一 个 例子 更 多 的 东西 ) 。 








正则 表达 式 匹配 模式 的 实例 
/ woodchuck/ “interesting links to woodchuck and lemurs” 
/a/ “Mary Ann stopped by Mona’s” 
/ Claire, says ,/ "Dagmar, my gift please," Claire says 
/DOROTHY/ "SURRENDER DOROTHY" 
AZ " You've left the burglar behind again !” said Nori 





图 2.2 HET SO 


exis 5*1]? 


正则 表达 式 是 区 分 大 小 写 的 (case sensitive) ; 小 写 /s/ 区 别 于 大 
写 /S/; /s/ 与 小 写字 母 s 匹 配 ，/S/ 与 大 写字 母 S 匹 配 。 这 意味 
着 ，/woodchuck/ 与 字符 串 Woodchuck 不 匹配 。 我 们 使 用 方 括 
号 ” ["fu*] ?来 解决 这 个 问题 。 内 部 有 括号 的 字符 符号 串 表 示 所 匹配 的 
字符 是 析 取 Cdisjunction) 的 。 例 如 ， 下 图 表明 ， 与 / [ww ] /匹配 的 模 
式 中 或 者 包含 w， 或 者 包含 W。 




















正则 表达 式 pmo gx 模式 例子 
/L wW |/oodchuck/ Woodchuck 或 woodchuck “Woodchuck” 
/| abe |/ ‘a’ Mb’ Ke’ “Tn uomini, in soldati” 
/| 1234567890 |/ 任何 数字 “plenty of 7 to 5" 











图 2.3 用 括号 L] 表示 字符 的 析 取 


e HERE AT €é » 


正则 表达 式 /1234567890/ 可 以 表达 任何 的 简单 数字 。 类 似 数字 或 字 
母 这 样 的 字符 都 是 构成 表达 式 的 重要 的 建筑 材料 ， 它 们 处 理 起 来 有 时 会 
变 得 很 不 方便 。 例 如 ， 当 我 们 用 "任意 的 大 写字 母 " 正 则 表达 式 








/ LABCDEFGHIJALMNOPQRSTUVWXYZ | / 





来 描述 任何 的 大 写字 母 时 ， 融 显得 很 不 方便 。 在 这 样 的 情况 下 ， 可 以 用 
连 字 符 “-? 来 表示 在 某 一 范围 (Gange) 内 的 任何 字符 。 正 则 表达 式 / [2 
一 5」 /表示 字符 2，3，4 和 5 范围 内 的 一 个 任意 符号 。 表 达 式 / [b-g] /表示 
字符 b, c, de,f 和 g 范 围 内 的 一 个 任意 符号 。 下 面 是 其 他 的 例子 : 











正则 表达 式 pt 配 匹配 模式 的 例子 
/LA-Z]/ 一 个 大 写字 母 “We should call it“ Drenched Blossoms’ " 
/| a-z |/ 一 个 小 写字 母 " my beans were impatient to be hoed" 
/40-9] 一 个 单独 数字 " Chapter 1: Down the Rabbit Hole" 





























图 2.4 ”使 用 括号 [] 和 连 字符 一 表示 某 个 范围 














e REA” 





使 用 脐 字 符 “^， 方 括号 还 可 以 用 来 表示 不 出 现 东 个 单独 的 字符 。 
MREFA ZA Ae, ABA, FADER EH. Bl 
如 ， 正 则 表达 式 / [Aaj] /与 任何 不 包含 a 的 单个 字符 相 匹 配 。 不 过 ， 这 种 
用 法 仅仅 当 脱 字符 处 于 开 方 括号 之 后 的 第 一 个 位 置 时 才 有 效 。 如 果 脱 字 
符 出 现在 其 他 位 置 ， 它 只 能 表示 脱 字 符 本 映 。 下 面 是 一 些 例子 。 














正则 表达 式 匹配 ( 单字 符 ) 匹配 模式 的 例子 
[^A-Z] 不 是 一 个 大 写字 母 | “Oyfn pripechik” 
[ ^Ss | BEA TES 也 不 是 s “I have no exquisite reason for t” 
[ ^X. ] 不 是 点 号 “our resident Djinn” 
[e^] 不 是 e, 就 是 “look up ^ now” 
a^b 模式 “a*b” “look up a^b now" 

















图 2.5 ”使 用 脱 字符 ^ 表 示 和 否定 或 者 仅仅 表示 它 自 号 





e 问 M. » 


使 用 方 括号 解决 了 woodchuck 的 大 小 写 问 题 ， 但 是 还 不 能 既 表 示 
woodchuck 又 表示 woodchucks。 我 们 不 能 用 方 括号 实现 这 样 的 表示 ， 
为 方 括号 容许 我 们 说 “s 或 9"， 但 是 不 容许 我 们 说 “s 或 无 >。 为 此 ， 我 们 使 
用 问号 “? ”来 表示 前 面 一 个 字符 或 者 “无 ”， 如 下 图 所 示 。 





正则 表达 式 匹配 模式 的 例子 
/woodchucks ?/ woodchuck 或 woodchucks " woodchuck" 
/colou? r/ color 或 colour “colour” 


图 2.6 ”问号 表示 它 前 面 的 那个 字符 是 可 选 的 


e “Kleene ” 











我 们 可 以 把 问号 的 意义 看 成 是 “前 一 个 字符 的 无 或 有 ”。 这 是 一 种 表 
达 我 们 想 要 多 少 东 西 的 方法 。 有 时 我 们 需要 正则 表达 陈 能 够 表示 重复 的 
事物 。 例 如 ， 羊 的 叫 声 可 以 看 成 一 种 “语言 ”， 这 种 语言 是 如 下 包 合 重复 


的 符号 的 符号 串 : 


baa! 
baaa! 
baaaa! 
baaaaa! 


baaaaaa! 





这 种 语言 的 开头 是 一 个 b， 后 面 跟着 至 少 两 个 a， 最 后 是 一 个 惊叹 

号 。 有 一 种 基于 星 号 或 “ ”的 算 符 可 以 容许 我 们 表达 “若干 个 a"， 这 种 算 
符 叫 做 “Kleene””( 我 们 不 妨 将 其 读 为 “Kleene 星 号 ”) 。Kleene 星 号 的 意 
思 是 “其 直接 前 面 的 字符 或 正则 表达 式 为 零 或 连续 出 现 知 干 次 ”。 这 样 一 
来 ，/a /表示 “由 零 或 若干 个 a 构 成 的 符号 串 ”， 它 可 以 与 a 或 aaaaaa 相 匹 
配 ， 并 且 它 也 可 以 与 Off Minor 相 匹配 ， 因 为 Off Minor 只 包含 零 个 a。 所 
以 ， 与 包含 一 个 或 多 个 a 的 符号 串 相 匹配 的 正则 表达 式 是 /aa ” /， 它 表示 
一 个 a 后 面 跟 着 零 个 或 多 个 a。 更 复杂 的 模式 也 可 以 重复 。 所 以 ，/ 

[ab] * /表示 “ 零 个 或 多 个 a 或 b” (不 是 表示 “ 零 个 或 多 个 右 方 括号 >”) 。 
这 个 正则 表达 式 可 以 与 aaaa 或 ababab 或 bbbb 符 号 串 相 匹配 。 




















现在 我 们 已 经 完全 知道 怎样 用 正则 表达 式 来 表示 多 位 数 的 价钱 。 单 
位 数 的 价钱 的 正则 表达 式 是 / [0-9] /。 因 此 一 个 整数 〈 数 字 串 ) 的 正则 


表达 式 就 是 / [0-9] [0-9] */. 


e “Kleene+” 


有 时 ， 把 数字 的 正则 表达 式 号 两 次 会 令 人 感到 腻 味 ， 因 此 ， 提 出 了 
一 种 表示 数字 “最 少 有 一 个 ”的 简单 方法 。 这 种 方法 就 是 “Kleene+”( 读 
为 “Kleene 加 号 ”) ，Kleene 加 号 的 含义 是 “前 面 一 个 或 多 个 字符 ”。 
此 ， 正 则 表达 式 / Lo-9] +/ 是 “数字 序列 ?的 规范 表达 式 。 羊 叫 声 的 语言 
有 两 种 表示 方法 : /baaa ! /和 /baa+! /. 








。 通配符 <“.” 


还 有 一 个 重要 的 字符 就 是 点 写 UJ) ,这 是 一 个 通配符 
(wildcard) 。 这 个 通配符 表示 任何 与 单个 字符 〈 回 车 符 除 外 ) 相 匹 配 
的 字符 。 









































正则 表达 式 po gs 模式 例子 
/ beg. n/ | 位 于 beg 和 na 之 间 的 任何 字符 | bengin, beg’n, begun 
图 2.7 用 点 号 “.” 表 示 任 意 字 符 
通配符 经 常 与 Kleene 星 写 结合 起 来 使 用 ， 其 意思 是 “任何 的 字符 


串 ”?。 例 如 ， 如 果 我 们 想 找到 文本 中 的 某 一 行 ， 其 中 aardvark 这 个 词 出 现 
两 次 。 我 们 可 以 用 正则 表达 式 表示 为 : /aardvark. aardvark/。 


e 锚 E <A» Kr] «$6» 


cH (anchors) 是 一 种 把 正则 表达 式 锚 在 符号 串 中 某 一 个 特定 位 置 
的 特殊 字符 。 最 普通 的 销 号 是 脱 字符 “人 ”和 美元 符号 “$9”。 脱 字符 与 行 的 





开始 相 匹 配 。 正 则 表达 式 /AThe/ 表 示 单 词 The 只 出 现在 一 行 的 开始 。 


这 样 一 来 ， 脱 字符 “可 有 三 种 用 法 : 表示 一 行 的 开始 ; 在 方 括号 
内 表示 人 否定 ; 只 表示 脱 字 符 本 里。 














美元 符号 $ 表 示 一 行 的 结尾 。 所 以 模式 “_$” 是 一 个 有 用 的 模式 ， 它 
表示 一 行 的 结尾 是 一 个 空白 。 正 则 表达 式 /AThe ”dog\.$/ 表 示 仪 只 包含 短 
语 The dog 的 一 个 行 。( 这 里 必须 使 用 反 斜 杜 ^*， 因 为 我 们 想 让 “.” 表 示 
点 号 ， 而 不 表示 通配符 ) 。 








e 词 Hn. = “\b » TH “B” 





此 外 还 有 两 个 其 他 的 销 号 : \b 表 示 词 界 ， 而 \B 表 示 非 词 界 。 因 此 ， 
和 Abthe\b/ 表 示 单 词 the， 而 不 是 表示 单词 other。 从 技术 上 说 ，Perl 语 言 把 
词 定义 为 数字 、 下 划 线 或 字母 的 任何 序列 。 这 是 根据 像 Parl 和 C 这 样 的 
程序 语言 中 关于 词 的 定义 来 说 的 。 例 如 ， 人 Ab99/ 表 示 在 “There are 99 
bottles of beer on the wall” 中 的 符号 串 99。 因 为 99 跟 在 一 个 空白 的 后 面 。 
但 是 这 个 正则 表达 式 不 表示 在 “There are 299 bottles of beer on the wall” HJ 
符号 串 99， 因 为 99 跟 在 一 个 数字 的 后 面 。 然 而 ， 这 个 正则 表达 式 表示 
$99 中 的 99《〈 因 为 99 跟 在 美元 符号 $ 的 后 面 ，$ 不 是 数字 、 下 划 线 或 字 
BE 





假定 我 们 需要 搜索 关于 宠物 的 文本 ; 而 且 我 们 对 于 cat 或 dog 最 感 兴 
趣 。 这 时 ， 我 们 试图 搜索 符号 串 cat， 或 者 符号 串 dog。 因 为 我 们 不 能 使 
用 方 括号 来 搜索 “cat 或 dog”， 我 们 需要 一 个 叫做 析 取 算 符 〈disjunction 
operator) 的 新 算 符 “所 ， 这 样 的 算 符 又 叫做 析 取 符 (pipe symbol) 。 正 





则 表达 式 /catldog/ 表 示 或 者 是 符 写 串 cat， 或 者 是 符 写 串 dog。 


。 析 取 符 < 


有 时 我 们 需要 在 比较 长 的 序列 中 间 使 用 析 取 符 。 例 如 ， 假 定 我 想 为 
我 的 朋友 David 搜 索 关 于 他 的 宠物 guppy〈 虹 鲜 ) 的 信息 ， 我 要 怎样 才 可 
以 同时 表达 guppy 和 它 的 复数 形式 guppies 呢 ?我 们 不 能 简单 地 表示 
为 /guppylies/， 因 为 这 样 的 表达 式 只 能 与 符号 串 guppi 和 ies 相 匹配 。 像 
guppy 这 样 的 符号 序列 优先 于 (precedence) 析 取 符 “|j”。 为 了 使 析 取 算 符 
只 能 应 用 于 特定 的 模式 ， 我 们 需要 使 用 圆 括号 算 符 ”〈” 和 ”“) ”， 把 一 个 
模式 括 在 圆 括 号 中 ， 使 得 它 就 像 一 个 单独 的 字符 来 使 用 ， 而 且 在 其 中 可 
以 使 用 析 取 符 “* 和 Kleene” 等 算 符 。 因 此 ， 表 达 式 /gupp(ylies)/ 表 示 析 取 
符 仅 仅 应 用 于 后 绥 y 和 ies。 


当 我 们 使 用 如 Kleene” 这 样 的 计数 符 的 时 候 ， 圆 括号 算 符 “(” 也 是 
很 有 用 的 。 与 算 符 中 不同，Kleene ” 算 符 只 能 用 来 表示 单个 的 字符 ， 不 
能 用 来 表示 整个 的 序列 。 如 果 我 们 想 匹 配 某 一 符号 串 的 重复 出 现 ， 我 们 
有 一 行人 符号 包含 列 标记 Column1l1 1 Column 2 Column 3。 表达 
式 /Column [0-9] + " /不 能 与 任何 的 列 相 匹配 ， 但 是 可 以 与 一 个 后 面 
有 任意 数目 的 空白 的 列 相 匹配 ! ET ”在 这 里 仅仅 用 于 表示 它 前 面 的 
空 日 符号 “<”， 而 不 表示 整个 的 序列 。 我 们 可 以 用 圆 括 号 写 出 正则 表达 
式 /(Column | [0-9] +“”) /， 这 个 表达 式 与 单词 Column 后 面 跟 着 一 个 数 
字 和 任意 数目 的 空白 组 成 的 符号 串 相 匹配 。 整 个 模式 可 以 重复 任意 次 
数 。 

















可 见 ， 一 个 算 符 可 能 优先 于 其 他 的 算 符 ， 因 此 ， 我 们 有 必要 使 用 括 
号 来 表示 这 种 优先 关系 ， 在 正则 表达 式 中 ， 这 种 优先 关系 是 通过 算 符 优 
先 层级 (operator precedence hierarchy) 来 形式 地 描述 的 。 下 面 的 表 中 给 
出 了 正则 表达 式 算 符 优先 的 顺序 ， 其 优先 性 按 从 高 到 低 的 顺序 排列 : 


圆 括号 O 

计数 符 eT de) 
序列 与 锚 the ^myend $ 
析 取 符 | 








由 于 计数 符 比 序列 具有 更 高 的 优先 性 ， 所 以 /the” /与 heeeee 相 匹 
配 ， 而 不 与 thethe 相 匹配 。 由 于 序列 比 析 取 符 具 有 更 高 的 优先 性 ， 所 
以 jthelany/ 与 the 或 者 any 相 匹配 ， 而 不 与 theny 相 匹配 。 








模式 有 时 可 能 具有 歧义 。 当 正则 表达 式 / La-z] ” /与 once upon a 
time 这 个 文本 相 匹 配 时 ， 由 于 / [az] ” /可 以 与 零 或 者 更 多 的 字母 相 匹 
配 ， 因 此 ， 这 个 正则 表达 式 可 以 与 零 相 匹配 ， 也 可 以 与 首 字 母 o0， 或 
on， 或 one， 或 once 相 匹配 。 在 这 些 场合 ， 正 则 表达 式 应 该 总 是 尽 其 可 
能 与 其 中 最 长 (largest〉 的 符号 串 相 逻 配 ， 在 这 种 情况 下 ， 它 应 该 匹配 
once。 我 们 可 以 说 ， 这 些 模式 总 是 信心 地 (greedy) PI, WAL aS 
可 能 长 的 符号 串 。 





假定 我 们 想 写 一 个 正则 表达 式 来 找 奉 英 语 的 冠 词 he， 我 们 可 以 写 
出 一 个 简单 的 (但 是 不 正确 的 ) 表达 式 : 


/the/ 


这 个 表达 式 不 能 表示 当 the 位 于 句子 开头 的 情况 ， 因 为 这 时 the 的 第 
一 个 字母 要 大 写 ， 即 写 为 The。 这 使 我 们 想到 使 用 表达 式 : 


/ [tT] he/ 


但 是 ， 当 文本 中 the 租 入 在 其 他 单词 中 间 的 时 候 〈 例 如 ，other 或 
theology) ， 这 样 的 表达 式 就 不 正确 了 。 这 时 ， 我 们 就 需要 在 表达 式 中 
说 明 ， 一 个 单词 的 两 端 应 该 有 边界 ， 表 达 式 应 该 是 : 





Ab [tT] he\b/ 


如 果 不 用 和 Ab/， 我 们 是 不 是 也 可 以 达到 这 的 目的 呢 ? 因为 人 Ab/ 不 能 
处 理 the 后 面 带 下 划 线 或 数目 字 的 情况 ， 我 们 也 不 想 把 下 划 线 或 数目 字 
看 成 是 词 的 界限 。 但 是 ， 我 们 试图 在 可 能 出 现下 划 线 或 数目 字 的 茶 个 上 
下 文中 找到 the《〈 例 如 ，the 或 the25) 。 我 们 需要 说 明 在 the 的 两 侧 不 能 出 
现 字 母 。 这 时 ， 表 达 式 为 : 


/ L^a-zA-Z] LtT] he L^a-zA-Z ] / 


但 是 ， 这 个 表达 式 仍然 还 有 问题 。 当 the 出 现在 一 行 的 开头 时 ， 我 
们 就 会 找 不 到 它 。 这 是 因为 我 们 曾经 用 正则 表达 式 [^a-zA-Z] 来 避免 
幅 入 的 the， 这 意味 着 ， 在 文本 中 ，the 的 前 面 必定 有 某 个 单独 的 字符 ， 
哪怕 这 个 字符 是 非 字 母 字 符 。 如 果 我 们 说 明 ， 在 the 的 前 面 或 者 是 一 行 
的 开头 ， 或 者 是 非 字 母 字 符 ， 我 们 就 可 以 避免 这 样 的 问题 。 这 时 的 正则 
表达 式 如 下 : 


























/(^| L^a-zA-Z] ) [tT] he [^a-zA-Z] / 


我 们 刚才 所 分 析 例子 的 错误 可 以 归纳 为 两 种 类 型 : 一 类 是 正面 错误 
(false positives) ， 例 如 ， 我 们 搜索 the 的 时 候 ， 错 误 地 匹配 other 或 there 


这 样 的 符号 串 ， 一 类 是 负面 错误 (false negatives) ， 例 如 ， 我 们 搜索 the 
的 时 候 ， 错 误 地 遗 涯 The 这 样 的 符号 串 。 在 研制 自然 语言 处 理 系 统 的 时 
候 ， 这 两 种 类 型 的 错误 总 是 一 而 再 、 再 而 三 地 反复 出 现 。 为 了 减少 应 用 
系统 的 错误 紊 ， 我 们 要 做 两 方面 的 努力 ， 而 这 两 方面 的 努力 是 彼此 对 六 
的 : 














e 增加 准确 率 Caccuracy) : 把 正面 错误 减少 到 最 低 限 度 。 
e SHI mK (coverage) : 把 负面 错误 减少 到 最 低 限 度 。 


让 我 们 举 出 更 有 意义 的 例子 来 说 明正 则 表达 式 的 能 力 。 假 定 我 们 想 
要 用 正则 表达 式 帮 助 用 户 在 Web 上 购买 计算 机 。 用 户 需 要 的 是 “6GHz 以 
上 、256GB 磁 盘 空 间 、 价 钱 低 于 $1 ”000 的 计算 机 ”。 为 了 进行 这 样 的 检 
索 ， 我 们 首先 需要 能 够 查找 诸如 6GHz，256GB、Dell、Mac、$999.99 这 
样 的 表达 式 。 在 本 节 的 其 他 部 分 ， 我 们 将 设计 某 些 正则 表达 式 来 做 这 样 
的 工作 。 








首先 ， 我 们 来 设计 关于 价钱 的 正则 表达 式 。 下 面 是 美元 符号 $ 后 面 
跟着 一 个 数字 符号 串 的 表达 式 。 注 音 ，Perl 善 于 表达 这 样 的 $， 而 不 让 它 
表示 行 尾 。 正 则 表达 式 如 下 〔 它 能 做 到 这 一 点 吗 ?) 








/$ [0-9] +/ 


现在 需要 处 理 美元 中 小 数 部 分 ， 我 们 可 以 在 上 述 表 达 式 后 面 加 小 数 
点 和 两 个 数字 。 正 则 表达 式 如 下 : 


/$ [0-9] +\. [0-9] [0-9] / 


这 样 的 表达 式 只 能 表示 $199.99， 而 不 能 表示 $199。 我 们 需要 把 小 
数 部 分 设 成 可 以 随意 选择 的 ， 并 且 确 定单 词 的 边界 。 正 则 表达 式 如 下 : 


Ab$ L0-9] +(\. Lo-9] [0-9] )?\b/ 


怎样 来 表达 处 理 器 的 速度 (兆赫 megahertz=MHz 或 干 兆赫 
gigahertz=GHz) We? 表达 式 如 下 : 


Ab [0-9] + " (MHz| [Mm] egahertz|GHz| [Gg] igahertz)\b/ 








注意 ， 我 们 用 / /表示 “ 零 或 更 多 空间 ”， 因 为 这 里 可 能 总 是 会 有 一 
些 多 余 的 空间 。 在 处 理 磁盘 空间 或 存储 量 〈 千 光 字 市 GB=gigabytes) 
时 ， 我 们 也 需要 容许 干 兆 字 节 的 小 数 是 可 以 随意 选择 的 (5.5GB) 。 注 
意 ， 这 里 使 用 “? ”来 表示 最 后 一 个 s 是 可 以 随意 选择 的 。 正 则 表达 式 如 
P: 











Ab [0-9] +0. [0-9] +)?_* (GB)| [Gg] igabytes?)\b/ 





最 后 ， 我 们 还 可 以 用 简单 的 正则 表达 式 来 表示 操作 系统 的 名 称 : 


人 b(Windows_”™ (Vista|XP)\b/ 
/\b(Mac|Macintosh|Aspple|OS_X)\b/ 


还 有 一 些 有 用 的 正则 表达 式 高 级 算 符 Cadvanced operators) . 12.8 
列 出 了 一 些 有 用 的 通用 字符 的 蔡 换 名 ， 使 用 这 些 蔡 换 名 ， 可 以 节省 打字 
的 工作 量 。 除 了 Kleene” 和 Kleene+ 之 外 ， 我 们 还 可 以 使 用 花 括 号 括 起 来 
的 数字 作为 计数 符 。 人 例如， 正则 表达 式 上 /3 表示 “前 面 的 字符 或 表达 式 
正好 出 现 3 个 ">。 这 样 ，/a\.{24}z/ 就 表示 a 后 面 跟 随 着 24 个 点 ， 再 跟随 着 
一 个 z (不 是 a 后 面 跟 随 着 23 个 或 者 25 个 点 再 跟随 着 一 个 Zz)。 











正则 表达 式 | ”扩充 表达 式 pec 模式 例子 
\d [0-9] 任何 数字 字符 Party_of 5 
\D [^0-9] 任何 非 数 字 字 符 Blue_moon 
\w La-zA-Z0 -9] | 任何 字母 数字 字符 或 空白 Daiyu 
\W [^w] 个 非 字母 数字 字符 Ing 
\s [ _\r\t\n\f ] 空白 区 域 ( 空白 ,表格 ) 
VS [^s] 非 空 白 区 域 in_ Concord 

















图 2.8 通用 字符 集 的 蔡 换 名 


数字 的 范围 也 可 以 用 类 似 的 办 法 来 表示 。/{n， mj/ 表 示 前 面 的 字符 
或 表达 式 出 现 n 到 m 个 ;/{n,}/ 表 示 前 面 的 表达 式 至 少 出 现 n 个 。 图 2.9 总 
结 了 用 于 计数 符 的 正则 表达 式 。 


正则 表达 式 yu 配 





前 面 的 字符 或 表达 式 出 现 零 个 或 多 个 
* 前 面 的 字符 或 表达 式 出 现 一 个 或 多 个 
? 前 面 的 字符 或 表达 式 恰 恰 出 现 零 个 或 一 个 
|n] 前 面 的 字符 或 表达 式 出 现 n 个 
in, ml 前 面 的 字符 或 表达 式 出 现 n 到 m 个 
in, | 前 面 的 字符 或 表达 式 至 少 出 现 n 个 
图 2.9 用 于 计数 符 的 正则 表达 式 算 符 














最 后 ， 还 可 以 用 基于 右 斜 杠 (\) 的 记 法 来 引用 某 些 特殊 字符 。 最 普通 
的 记 法 就 是 换行 符 (newline)“\n” 和 表格 符 (tab)\t”。 为 了 引用 某 个 特殊 
的 字符 (例如 ,.，” ， [和 \， 可 以 在 这 个 字符 前 面 加 右 斜 本 (和 人 ./， 和 人 - 
D AALA Vs 





正则 表达 式 匹 ic 匹配 模式 的 例子 











\ x REUS." “KAPLAN” 

X. (== d "Dr. Livinston, I presume" 
M? 问号 " Would you light my candl ?" 
\n 换行 符 

M 表格 符 














图 2.10“ 某 些 加 右 斜 杠 的 字符 








正则 表达 式 的 一 个 重要 用 途 是 蔡 换 (substitution) 。 例 如 ，Perl 语 
言 中 的 蔡 换 运算 符 s/regexp1l/regexp2/ 可 把 一 个 用 正则 表达 式 描述 的 符号 
串 蔡 换 为 另 一 个 用 正则 表达 式 摘 述 的 符号 串 : 


s/colour/color/ 


我 们 经 党 需要 引用 与 某 一 个 模式 相 匹 配 的 符号 串 中 的 特定 部 分 。 例 
如 ， 假 定 我 们 想 把 文本 中 的 所 有 整数 的 两 侧 加 上 尖 插 号 ， 具 体 地 说 ， 要 
把 the 35 boxes 蔡 换 为 the «35» boxes。 我 们 只 要 引用 相应 的 整数 ， 我 们 
就 可 以 很 容易 地 在 它 的 两 人 出 加 上 尖 括 号 。 为 此 ， 我 们 在 第 一 个 模式 〈 即 
整数 ) 的 两 侧 加 上 圆 括号 “2 和 9”， 然 后 ， 在 第 二 个 模式 中 使 用 数字 算 
^j (number operator) \1” 以 便 回 过 头 去 参照 第 一 个 模式 : 


s/( L0-9] +)/<\1>/ 


[al FS RC t8. BY DA A Rk a BS Er ER B X CE SCS PH SL 
次 。 例 如 ， 假 定 我 们 要 查找 模式 “the Xer they were, the Xer they will 
be”， 我 们 想 让 其 中 的 X 指 同一 个 符号 串 。 这 时 ， 我 们 在 第 一 个 X 的 两 侧 
加 圆 括号 ， 并 且 用 数字 算 符 A1? 蔡 换 第 二 个 X: 


/the (." )er they were, the Mer they will be/ 





这 里 的 1” 可 以 与 用 圆 括号 中 的 项 相 匹 配 的 任何 符号 串 来 蔡 换 。 
此 ， 与 这 个 正则 表达 式 相 匹配 的 符号 串 是 “The bigger they were, the 
bigger they will be”， 而 不 是 “The bigger they were, the faster they be". 





数字 算 符 也 可 以 使 用 其 他 的 数字 。 如 果 我 们 要 匹配 圆 括号 中 的 不 同 
的 符号 串 ， 那 么 ， 我 们 可 以 用 数字 ?来 表示 圆 括号 另 一 个 符号 串 。 这 样 
的 数字 存储 器 叫做 寄存 器 〈registers) 。 例 如 ， 寄 存 器 1、 寄 存 器 2、 寄 
存 器 3， 等 等 。 这 样 的 存储 特性 不 是 每 一 种 正则 表达 陈 语言 都 具备 的 ， 
但 这 第 种 是 正则 表达 式 的 叫 充 ?特性 。 











魏 岭 鲍 姆 在 1966 年 曾经 根据 这 种 使 用 替换 的 存储 器 的 原理 开发 了 
ELIZA 自 然 语言 理解 程序 是 非常 有 用 的 。 在 第 一 章 中 我 们 说 过 ，ELIZA 
可 以 模拟 心理 咨询 医生 的 行为 ， 它 可 以 同 用 户 进 行 对 话 。 下 面 我 们 再 举 
一 个 对 话 的 例子 : 





用 户 : Men are all alike. 

ELIZA: INWHAT WAY. 

用 户 : They're always bugging us about something or other. 
ELIZA: CAN YOU THINK OF A SPECIFIC EXAMPLE. 
用 户 : Well, my boyfriend made me come here. 

ELIZA: YOUR BOYFRIEND MADE YOU COME HERE. 
用 户 : He says I'm depressed much of the time. 

ELIZA: I AM SORRY TO HEAR YOU ARE DEPRESSED. 


ELIZA 进 行 一 连 串 的 正则 表达 式 的 替换 ， 每 个 正则 表达 式 与 输入 行 
中 的 某 个 部 分 相 匹 配 ， 然 后 蔡 换 并 改变 它们 。 首 先 的 替换 是 把 所 有 的 
my 蔡 换 为 YOUR， 把 所 有 的 Im 和 蔡 换 为 You are， 如 此 等 等 。 然 后 的 蔡 换 
是 查找 输入 中 相关 的 模式 ， 并 产生 出 适合 的 输出 。 下 面 是 一 些 例 子 : 





s/. YOU ARE (depressed|sad) . /I AM SORRY TO HEAR YOU 
ARE \1/ 


s/. YOU ARE (depressed|sad) . /WHY DO YOU THINK YOU 
ARE \1/ 


s/." all .* /IN WHAT WAY/ 
s/.* always .' /CAN YOU THINK OF A SPECIAL EXAMPLE/ 


由 于 在 ELIZA 系 统 中 大 量 使 用 正则 表达 式 ， 使 得 这 个 系统 看 起 来 似 
乎 能 够 理解 目 然 语言 ， 实 际 上 ， 它 的 原理 并 不 复杂 。 由 此 可 以 看 出 ， 在 
目 然 语言 处 理 中 ， 正 则 表达 式 确实 是 一 种 简单 而 有 用 的 工具 。 











第 二 六 ”最 小 编辑 距离 算法 


在 词汇 自动 处 理 中 ， 判 断 两 个 单词 中 的 哪 一 个 在 拼写 上 更 接近 于 第 
三 个 单词 ， 是 字符 串 距 离 〈string distance) 这 个 一 般 问 题 的 一 种 特殊 情 
况 。 两 个 符号 串 之 间 的 距离 用 这 两 个 符号 串 彼 此 相似 的 程度 来 度量 。 











找 出 符号 串 距 离 的 很 多 重要 算法 都 与 最 小 编辑 距离 (minimum edit 
distance〉 算 法 的 某 个 版 本 。 这 个 版 本 的 算法 是 瓦格纳 (Wagner) AE 
舍 尔 (Fischer) 在 1974 年 提出 的 。 





两 个 符号 串 之 间 的 最 小 编辑 距离 就 是 指 把 一 个 符号 串 转 换 为 另 一 个 
符号 各 时， 所 需要 的 最 小 编辑 操作 的 次 数 。 例 如 ，intention 和 execution 
之 间 的 距离 是 5 个 操作 。 


下 图 说 明了 两 个 符号 串 之 间 对 齐 (alignment) 的 情况 。 给 定 两 个 序 
列 ， 这 两 个 序列 的 子 符号 串 之 间 的 对 应 情况 就 是 对 齐 。 例 如 ， 在 图 2.11 
中 ，[I 与 空 符号 串 对 齐 ，N 与 E 对 齐 ，T 与 X 对 齐 ， 等 等 。 在 对 齐 的 符 写 串 
下 边 的 标记 说 明 从 上 面 的 符号 串 转换 为 下 面 的 符号 串 要 做 的 操作 ， 符 号 
的 一 个 序列 就 表示 一 个 操作 表 (operation list) 。 其 中 ，d 表 示 删 除 
(deletion) ，s 表 示 蔡 代 (substitution) ，i 表 示 插 入 (insertion) 。 









































图 2.11 把 两 个 符号 串 之 间 的 最 小 编辑 距离 表示 为 对 齐 。 最 下 面 一 行 给 出 了 从 上 面 的 符号 串 到 
下 面 的 符号 串 转 换 时 的 操作 表 : ERMIR, sE RIRIA. 





























我 们 也 可 以 给 每 一 个 操作 一 个 代价 值 (cost) 或 权 值 Cweight) 。 
两 个 序列 之 间 的 列 文 斯 坦 距 离 (Levenshtein distance) 是 最 简单 的 加 权 
因子 ， 根 据 1966 年 Levenshtein 的 建议 ， 在 上 面 三 种 方法 中 的 每 一 个 操作 
的 代价 值 都 为 1 BI 。 所 以 ， 在 intention 和 execution 之 间 列 文 斯 坦 距 离 为 
Do 





列 文 斯 坦 还 提出 了 另 一 种 不 同 的 度量 方法 ， 这 种 方法 规定 ， 插 入 或 
脱落 操作 的 代价 值 为 1， 不 容许 蔡 代 操作 《〈 列 文 斯 坦 认为 ， 可 以 把 蔡 代 
操作 表示 为 一 个 插入 操作 加 上 一 个 脱落 操作 ， 这 样 ， 蔡 代 操 作 的 代价 值 
为 2， 这 实际 上 也 就 等 于 容许 了 蔡 代 操作 ) 。 使 用 这 样 的 度量 方法 ， 在 
intention 和 execution 之 间 的 列 文 斯 坦 距 离 应 该 是 8。 在 本 书 中 ， 我 们 采用 
列 文 斯 坦 提 出 的 这 种 方法 来 度量 最 小 编辑 距离 。 











最 小 编辑 距离 使 用 动态 规划 Cdynamic programming) 来 计算 。 动 态 
规划 是 一 类 算法 的 名 字 ， 首 先 于 1957 年 由 白 尔 曼 〈Bellman) 提出 。 动 
态 规划 把 各 个 子 问题 的 求解 结合 起 来 ， 从 而 求解 整个 问题 。 这 一 类 算法 
包括 了 自然 语言 处 理 中 的 大 多 数 通 用 算法 。 





从 直觉 上 来 说 ， 动 态 规 划 问 题 残 是 首先 把 一 个 大 的 问题 化 解 为 不 同 
的 子 问题 ， 再 把 这 些 子 问题 的 解 适当 地 结合 起 来 ， 从 而 实现 对 大 的 问题 
的 求解 。 





例如 ， 下 图 中 所 示 的 符号 串 intention 和 execution 之 间 的 最 小 编辑 距 
离 的 求解 ， 束 要 考虑 被 转换 的 不 同 单词 的 序列 和 “路 径 ”(path) 等 子 问 
题 。 其 中 的 一 条 路 径 可 以 包括 如 下 步 双 : 


1. 删除 intention 中 的 第 一 个 字母 1i， 得 到 ntention; 


2. 用 e 蔡 代 n tention 中 的 第 一 个 字母 n， 得 到 etention; 


3. 用 x 替代 et ention 中 的 第 二 个 字母 t， 得 到 ex ention; 


4.， 在 exention 中 的 第 四 个 字母 np 和 第 五 个 字母 之 间 插 入 字母 "， 得 到 


exenu tion; 
5. Hc& texen ution 中 的 第 四 个 字母 n， 得 到 execnution 。 


用 于 序列 比较 的 动态 规划 算法 工作 时 ， 要 建立 一 个 距离 和 矩阵， 目标 
序列 的 每 一 个 符号 记录 在 矩阵 的 行 上 ， 源 序列 的 每 一 个 符号 记录 在 矩阵 
的 列 上 ， 也 惑 是 说 ， 目 标 序列 的 字母 治 着 底线 排列 ， 源 序列 的 字母 沿 着 
侧线 排列 。 对 于 最 小 编辑 距离 来 说 ， 这 个 窍 阵 就 是 编辑 距离 矩阵 Cedit 
distance matrix) 。 每 一 个 编辑 距离 单元 Li, jl 表示 目标 序列 头 i 企 字符 
和 源 序列 的 头 j 个 字符 之 间 的 距离 。 每 个 单元 可 以 作为 周围 单元 的 简单 
函数 来 计算 。 























intention 

<— delete i 
ntention 

<— substitute n by e 
etention 


<— substitute t by x 


exention 

< insert u 
exenution 

«— substitute n by c 
execution 





图 2.12 ”从 intention 到 execution 转 换 的 操作 表 





计算 每 个 单元 中 的 值 的 时 候 ， 我 们 取 到 达 该 单元 时 插入 、 蔡 代 、 删 
除 三 个 可 能 的 路 径 中 的 最 小 路 径 为 其 值 ， 计 算 公式 如 下 : 


distance| i-1, j ] + ins-cost( target, _, ) 


M" distance, i-1, j -1 ] + sub-cost( SOURCE, _1 ， 
distancel i,j | = min 
target; , ) 





distance i, j-1 ] + del-cost( source; , ) 


图 2.13 中 的 伪 代 码 (pseudo code) 对 于 这 个 算法 做 了 归纳 。 


function MIN-EDIT-DISTANCE ( target, source ) returns min-distance 


n«—LENGTH( target ) 
m«—LENGTH(Ü source ) 
Create a distance matrix distance, n +1, m +I | 
Initialize the zeroth row and column to be the distance from the empty string 
distancel 0, 0 | 20 
for each column i from 1 to n do 
distance. i, O ]«—distancd. i 21, 0 | + ins-costl target], il) 
for each row j from 1 to m do 
distance O, j ]-—distance| 0, j-1 ] + del-cost( sourced. il ) 
for each column i from 1 to n do 
for each row j from 1 to m do 
distance, i, j ]——Mix distance. i-1, J | + ins-cost( target, , ), 





distance i - 1, j - 1 ] + sub-cosi( source, _ JE target, , ), 


distance| i, j-1 ] + del-cosi( source ;_, J) 


return distance | n, m | 

















图 2.13 ”最 小 编辑 距离 算法 的 伪 代 码 。 各 种 代价 值 可 以 是 固定 的 (例如 ，\Y x ins- 
cost(x)=1) ， 也 可 以 针对 个 别 的 字母 特别 地 说 明 ( 例 如， 说 明 某 些 字母 比 男 外 的 一 些 字 母 更 容 
DSO 。 我 们 假定 相同 的 字母 进行 普 代 ， 其 代价 值 为 零 。 


























图 2.14 是 应 用 这 个 算法 计算 intention 和 execution 之 间 的 距离 的 结果 ， 
计算 时 采用 了 列 文 斯 坦 提出 的 第 二 种 度量 方法 : 插入 和 脱落 的 代价 值 分 
别 取 1， 蔡 代 的 代价 值 取 2， 当 相同 的 字母 进行 蔡 代 时 ， 其 代价 值 为 零 。 
在 每 一 个 单元 ， 都 存在 插入 、 脱 落 和 人 蔡 代 三 个 可 能 性 ， 最 小 编辑 距离 算 
法 从 这 三 个 可 能 的 路 径 中 的 最 小 路 径 为 其 值 ， 采 用 这 样 的 计算 方法 ， 从 
和 窃 阵 的 开始 点 出 有 发， 在 每 一 个 单元 都 在 插入 、 脱 落 和 蔡 代 三 个 可 能 性 之 
间 进 行 选择 ， 因 此 就 能 够 把 矩阵 中 的 所 有 的 单元 都 填 满 。 








图 2.14 





















































应 用 图 2.18 中 的 算法 计算 intention 和 execution 之 间 的 最 小 编剧 距离 ， 计 算 时 采用 了 列 文 


























斯 坦 距离 .插入 和 删除 分 别 取 代价 值 为 1， 赫 代 取 代价 值 为 >。 斜体 字符 表示 从 空 符号 串 开始 的 
距离 的 初始 值 ， 和 矩阵 中 的 所 有 的 单元 都 填 满 了 。 























采用 最 小 编辑 距离 算法 ， 在 图 2.14 中 ， 首 先 要 删除 intention 中 的 i， 


从 第 1 列 第 0 行 开始 计算 。 


在 图 2.14 中 的 一 种 可 行 的 计算 步骤 如 下 : 

一 首先 删除 it， 在 第 1 列 第 0 行 ， 得 1 分 ， 积 累 为 1 分 ; 
一 用 e 蔡 换 n， 在 第 1 列 第 2 行 ， 得 2 分 ， 积 累 为 1+2=3 分 ; 
一 用 x 蔡 换 t， 在 第 2 列 第 3 行 ， 得 2 分 ， 积 累 为 3+2=5 分 ; 
一 e 不 变 ， 在 第 3 列 第 4 行 ， 不 得 分 ， 积 累 为 5 分 ; 
一 用 c 蔡 换 n， 在 第 4 列 第 5 行 ， 得 2 分 ， 积 累 为 5+2=7 分 ; 


一 在 c 后 插入 u， 在 第 5 列 第 5 行 ， 得 1 分 ， 积 累 为 7+1=8 分 ; 


一 与 t 完 全 相同 ， 在 第 6 列 第 6 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 
一 i 与 完全 相同 ， 在 第 7 列 第 7 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 
一 0 与 0 完全 相同 ， 在 第 8 列 第 8 行 ， 不 得 分 ， 积 办 为 8+0=8 分 ; 
一 n 与 n 完 全 相同 ， 在 第 9 列 第 9 行 ， 不 得 分 ， 积 办 为 8+0=8 分 ; 


忆 积 累 为 8 分 。 








最 小 编辑 距离 对 于 发 现 诸如 潜在 的 拼写 错误 更 下 算法 等 工作 是 很 有 
用 的 。 不 过 ， 最 小 编辑 距离 算法 还 有 其 他 的 重要 用 途 。 只 要 做 一 些 轻 微 
的 改动 ， 最 小 编辑 距离 算法 就 可 以 用 来 做 两 个 符 写 串 之 间 的 最 小 代价 对 
XŠ alignment) 。 两 个 符号 串 的 对 齐 对 于 自然 语言 处 理 是 非常 有 用 的 。 
在 语音 识别 中 ， 可 以 使 用 最 小 编辑 距离 对 齐 来 计算 单词 的 错误 率 。 在 机 
器 翻译 中 ， 对 齐 也 起 着 很 大 的 作用 ， 因 为 双语 并 行 语料库 中 的 句子 需要 
彼此 匹配 。 

















为 了 扩充 最 小 编辑 距离 算法 使 得 它 能 够 进行 对 齐 ， 我 们 可 以 把 对 齐 
看 成 是 通过 编辑 距离 矩阵 的 一 条 路 径 (path)。 图 2.15 中 使 用 带 阴 影 的 
小 方 框 来 显示 这 条 路 径 。 路 径 中 的 每 一 个 小 方 框 表示 两 个 符号 串 中 的 一 
对 字母 对 齐 的 情况 。 如 果 两 个 这 样 带 阴影 的 小 方 框 连续 地 出 现在 同一 个 
行 中 ， 那 么 ， 从 源 符号 串 到 目标 符号 串 就 会 有 一 个 插入 操作 ;如 果 两 个 
这 样 带 阴 影 的 小 方 框 连 续 地 出 现在 同一 个 列 中 ， 那 么 ， 从 源 符号 串 到 目 
标 符号 串 就 会 有 一 个 删除 操作 。 
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图 2.15 “计算 intention 和 execution 之 间 最 小 编辑 距离 的 追踪 路 径 


图 2.15 从 直 党 上 说 明了 如 何 来 计算 这 种 对 齐 路 径 。 








计算 过 程 分 为 两 步 ， 分 述 如 下 : 











e 在 第 一 步 ， 我 们 在 每 一 个 方 框 中 存储 一 些 指针 来 提升 最 小 编辑 距 
离 算法 的 功能 。 方 框 中 指针 要 说 明 当 前 的 方 框 是 从 前 面 的 哪 一 个 《或 哪 
些 个 ) 方 框 来 的 方 回 。 在 图 2.15 中 ， 我 们 分 别 说 明了 这 些 指 针 的 情况 。 
在 菏 些 方 框 中 出 现 右 干 个 指针 ， 这 是 因为 在 这 些 方 框 中 最 小 的 扩充 可 能 
来 自前 面 的 奉 干 个 不 同 的 方 框 。 图 中 ， 指 针 “ ”表示 插入 操作 ， 指 
针 “,” 表 示 删 除 操 作 ， 指 针 “ ”表示 葵 换 操作 。 











e 在 第 二 步 ， 我 们 要 进行 追踪 (backtrace) 。 在 追踪 时 ， 我 们 从 最 
后 一 个 方 枉 《处 于 最 后 一 行 与 最 后 一 列 的 方 框 ) Fron, TERRE ATA PAT 
指 的 方向 往 后 退 踪 ， 穿 过 这 个 动态 规划 矩阵 。 在 最 后 的 方 框 与 初始 的 方 
框 之 间 的 每 一 个 完整 的 路 径 ， 束 是 一 个 最 小 编辑 距离 对 齐 。 














在 图 2.15 中 ， 在 每 一 个 方 框 中 输入 一 个 值 ， 并 用 稍 头 标 出 该 方 框 中 
的 值 是 来 自 与 之 相 邻 的 三 个 方 框 中 的 哪 一 个 方 框 ， 一 个 方 框 最 多 可 以 有 
三 个 箭头 Pr) 。 当 这 个 表 填 满 之 后 ， 我 们 残 使 用 追踪 的 方法 





来 计算 对 齐 的 结果 《也 就 是 最 小 编辑 路 径 ) ， 计 算 时 ， 从 右上 角 代 价值 
为 8 的 方 框 开始 ， 顺 着 第 尖 所 指 的 方向 进行 妃 踪 。 图 中 灰 黑 色 的 方 框 序 
列表 示 在 两 个 符 写 串 之 间 一 个 可 能 的 最 小 代价 对 齐 的 结果 。 


在 图 2.15 中 ， 首 先 要 删除 intention 中 的 1{， 从 第 1 列 第 0 行 开始 计算 ， 
计算 步骤 如 下 : 


一 首先 删除 i， 在 第 1 列 第 0 行 ， 得 1 分 ， 积 累 为 1 分 ; 
一 用 e 蔡 换 n， 在 第 1 列 第 2 行 ， 得 2 分 ， 积 累 为 1+2=3 分 ; 
一 用 x 蔡 换 t， 在 第 2 列 第 3 行 ， 得 2 分 ， 积 累 为 3+2=5 分 ; 

一 e 不 变 ， 在 第 3 列 第 4 行 ， 不 得 分 ， 积 累 为 5 分 ; 

一 在 e 后 插入 c， 在 第 4 列 第 4 行 ， 得 1 分 ， 积 累 为 5+1=6 分 ; 
一 用 u 蔡 换 n， 在 第 5 列 第 5 行 ， 得 2 分 ， 积 累 为 6+2=8 分 ; 

一 t 与 t 完 全 相同 ， 在 第 6 列 第 6 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 
一 i 与 完全 相同 ， 在 第 7 列 第 7 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 
一 0 与 0 完全 相同 ， 在 第 8 列 第 8 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 
一 n 与 n 完 全 相同 ， 在 第 9 列 第 9 行 ， 不 得 分 ， 积 累 为 8+0=8 分 ; 


忆 积 累 仍然 为 8 分 。 


"Bu ”词汇 语义 学 


单词 本 刁 的 语义 信息 是 很 重要 的 ， 根 据 “ 组 成 性 原则 ”， 句 子 的 语义 
是 由 构成 该 句子 的 单词 的 语义 以 及 这 些 单词 之 间 的 语义 关系 组 成 的 。 
此 ， 我 们 在 自然 语言 处 理 中 ， 应 该 重视 词汇 语义 的 研究 。 














语言 中 的 词汇 具有 高 度 系 统 化 的 结构 ， 正 是 这 种 结构 决定 了 蛙 词 的 
意义 和 用 法 。 这 种 结构 包括 单词 和 它 的 意义 之 间 的 关系 以 及 个 别 单词 的 
内 部 结构 。 对 这 种 系统 化 的 、 与 意义 相关 的 结构 的 词汇 研究 叫做 “词汇 


语义 学 ”(Lexical Semantics) 。 





从 词汇 语义 学 看 来 ， 词 汇 不 是 单词 的 有 限 的 列表 ， 而 是 高 度 系 统 化 
的 结构 。 


在 继续 讲述 词汇 语义 学 之 前 ， 让 我 们 首先 引入 一 些 新 的 术语 ， 因 为 
迄今 为 止 我 们 用 过 的 这 些 术 语 都 过 于 模糊 。 例 如 ， 对 于 “ 词 ”(word) 这 
个 术语 ， 目 前 已 有 各 式 各 样 的 用 法 ， 这 增加 了 我 们 澄清 其 用 法 的 难度 。 
因此 我 们 将 使 用 * 词 位 ”(lexeme) 这 个 术语 来 蔡 代 “ 词 ”这 个 术语 ， 词 位 
表示 词典 中 一 个 单独 的 条 目 ， 是 一 个 特定 的 正字 法 形式 和 音素 形式 与 一 
些 符 写 的 意义 表示 形式 的 组 合 。 词 典 (Lexicon) 是 有 限 个 词 位 的 列 
表 ， 从 词汇 语义 学 的 观点 看 来 ， 词 典 还 是 无 限 的 意义 的 生成 机 制 。 一 个 
词 位 的 意义 部 分 叫做 “涵义 ”(sense) 。 











词 位 和 它 的 涵义 之 间 存 在 着 复 淋 的 关系 。 这 些 关 系 可 以 用 同形 关 
系 、 同 义 关 系 、 上 下 位 关系 、 整 体 一 部 分 关系、 集合 一 元 素 关 系 来 摘 


1. 同形 关系 


形式 相同 而 意义 上 没有 联系 的 词 位 之 间 的 关系 叫做 同形 关系 
(homonymy) 。 有 共有 同形 关系 的 词 位 叫做 同形 词 Chomonyms) 。 





例如 ，bank 有 两 个 不 同 的 意思 ; 


(447 (financial institution) 。 在 句子 “A bank can hold the 
investments in an account in the client's name.” 中 的 bank 就 具有 这 个 意思 ， 


我 们 把 它 叫做 bank1。 


倾斜 的 堤岸 Csloping mound) 。 在 句子 “As the agriculture 
development on the east bank , the river will shrink even more.” 中 的 bank 就 
具有 这 个 意思 ， 我 们 把 它 叫做 bank2 。 


Bank1 和 bank2 在 意义 上 没有 联系 ， 在 词 源 上 ，bank1l 来 自 意 大 利 
语 ， 而 bank2 来 自 斯 堪 底 纳 维 亚 语 。 


同形 词 可 以 分 为 两 种 : 





e HAR (Homophones) : 发 音 相同 但 是 拼写 法 不 同 的 词 
位 。 例 如 ，wood 一 would，be 一 bee; weather—whether. 





e 同形 异 义 词 (Homographs) : 正 词法 形式 相同 但 是 发 音 不 同 的 
if. ful, bass [bes] bass [beis] . bass [bes] 是 一 种 皮肤 带 
刺 可 食用 的 鱼 ， 叫 做 “ 狠 包 >， 而 bass Lbeis] : 表示 低音 。 








在 自然 语言 处 理 中 ， 我 们 应 该 重视 同形 关系 的 研究 。 











e 在 拼写 校正 时 ， 同 音 异 义 词 可 能 会 导致 单词 的 拼写 错误 。 例 如 ， 
把 “weather” 错 误 地 拼写 成 “whether”。 








e 在 语音 识别 时 ， 同 音 异 义 词 会 引起 识别 的 困难 。 例 
ll, “to”. “two” 和 “too” 发 音 相 同 ， 在 识别 时 难以 区 分 。 


e 在 文本 一 语音 转换 系统 (Text-To-Speech system， 人 简称 TTS 系 统 ) 
中 ， 同 形 异 义 词 由 于 发 音 不 同 ， 会 引起 转换 的 错误 。 例 如 ， 
bass [bes] 和 bass [beis] 。 











一 个 单独 的 词 位 具有 奉 干 个 彼此 关联 的 涵义 的 现象 ， 叫 做 多 义 关 系 
现象 (polysemy) ， 具 有 多 义 关 系 的 词 位 叫做 多 义 词 ， 这 意味 着 ， 在 一 
个 多 义 词 中 的 各 个 涵义 是 彼此 相关 的 ， 而 同形 词 的 各 个 涵义 是 不 相关 
的 。 








例如 ， 英 语 的 head 是 一 个 多 义 词 。 它 具有 如 下 的 涵义 : 
包括 大 脑 、 眼 睛 、 耳 条 、 鼻 子 和 中 的 身体 部 分 。 

@ 物 品 的 最 前 端 。 例 如 ，*the head of the bed”( 床 头 ) 。 

图 头脑 。 例 如 , “Can't you get these facts into your head?” 中 的 head。 


己 的 涵义 是 从 内 的 涵义 的 引申 ，B) 的 涵义 是 员 的 涵义 的 缩小 。 各 个 
闻 义 之 间 是 有 联系 的 。 


我 国学 者 张 潮 生 研制 了 中 文 词语 库 (Chinese Wors Base， 人 简称 
CWB) ， 把 现代 汉语 中 的 单词 构成 一 个 完整 的 词汇 体系 。CWB 系 统 的 
核心 是 一 个 规模 较 大 的 中 文 词 库 。 该 词 库 目前 收入 了 12 万 以 上 的 书面 形 
式 的 词 条 ， 包 括 单词 、 固 定 词 组 、 成 语 、 一 定 比例 的 专 名 、 少 量 在 中 文 











文章 中 较 毅 见 的 英文 缩写 或 含有 字母 的 词语 ， 等 等 。 每 个 词 条 通过 关系 
比较 密切 的 相关 词 〈 例 如 同义词 、 反 义 词 、 上 位 词 、 下 位 词 等 ) 与 其 它 
词 条 相连 结 。 整 个 词 库 呈 现 为 比较 复杂 的 网 络 结构 ， 并 带 有 多 种 检索 手 
段 和 显示 方式 。 














该 词 库 包含 大 量 的 同 义 、 分 类 等 语义 信息 ， 可 用 作 中 文 的 同义词 
典 、 反 义 词典 、 分 类 词典 或 者 某 种 资料 信息 库 ， 也 是 一 种 知识 本 体 
(Contology，〉， 有 类 似 著名 英文 词 库 WordNet 的 用 途 。 它 可 用 于 搜索 引 
擎 、 全 文 检 索 等 检索 工具 中 ， 帮 助 用 户 选择 关键 词 、 帮 助 系统 提供 相关 
搜索 词 或 进行 其 它 智能 处 理 ， 例 如 语义 搜索 、 精 准 匹 配 等 。 也 可 用 于 字 
处 理 、 写 作 助 理 等 办 公 软 件 中 ， 丰 富 的 相关 词 能 为 号 作 中 的 词语 优化 提 
供 较 有 力 的 支持 。 还 可 作为 自然 语言 处 理 的 资源 或 汉语 教学 的 辅助 工 
具 。 该 词 库 已 在 有 些 企业 和 科研 机 构 中 得 到 应 用 。 

















CWB 中 注意 处 理 多 义 词 ， 多 义 词 的 义 项 分 布 如 下 : 
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#2 CWB 中 多 义 词 的 义 项 分 布 


在 CWB 中 ， 义 项 总 数 为 116 ”396， 词 条 总 数 91 713， 平均 义 项 数 
1.27。 由 此 我 们 可 以 对 于 现代 汉语 中 的 多 义 词 的 义 项 分 布 有 一 个 大 致 的 
了 解 。 


在 语言 学 中 ， 区 分 同形 词 和 多 义 词 是 很 重要 的 。 不 过 ， 在 自然 语言 
处 理 中 ， 由 于 同形 词 和 多 义 词 实际 上 都 是 一 个 词 具 有 一 个 以 上 的 涵义 的 
现象 ， 它 们 都 属于 词义 的 歧义 问题 ， 我 们 一 般 没 有 必要 区 分 同形 词 和 多 
义 词 ， 我 们 把 它们 都 作为 词义 排 歧 (Word Sense Disambiguation， 人 简称 
WSD) 的 问题 来 处 理 。 





2. 同 义 关 系 


在 传统 语言 学 中 ， 如 果 两 个 词 位 具有 相同 的 意义 ， 那 么 ， 就 说 它们 
之 间 具 有 同 义 关 系 (Synonymy) 。 这 样 的 定义 显然 过 于 笼统 ， 人 缺乏 操 
TETE. 








在 机 器 翻译 研究 中 ， 我 们 可 以 根据 可 蔡 换 性 Csubstitutablity) KE 
MIA MRA: 在 一 个 句子 中 ， 如 采 两 个 词 位 可 以 互相 替换 而 不 改变 句子 
的 意思 或 者 不 改变 句子 的 可 接受 性 ， 那 么 ， 我 们 就 说 这 两 个 词 位 具有 同 
义 关 系 。 这 样 的 定义 显然 共有 可 操作 性 。 














fü, ^J How big is that plane?” 和 人 句子 “Would I be flying on a 
large or small plane?” 中 的 big 和 1large 可 以 互相 替换 ， 而 不 会 改变 这 两 个 
句子 的 意义 或 改变 它们 的 可 接受 性 ， 我 们 就 说 big 和 large 具 有 同 义 关 
系 。 





不 过 ， 如 果 我 们 坚持 这 种 可 符 换 性 一 定 要 在 一 切 的 环境 中 都 具有 ， 
那么 ， 瑞 语 中 的 同义词 的 数量 融 很 少 了 。 因 此 ， 我 们 对 于 可 将 换 性 的 要 
求 不 能 太 过 于 严格 ， 只 要 求 在 茶 些 环境 下 可 蔡 换 就 可 以 了 。 也 就 是 说 ， 
我 们 宁愿 给 同 义 关 系 一 个 比较 弱 的 定义 ， 这 样 做 比较 现实 。 











可 蔡 换 性 与 下 面 4 个 因素 有 联系 : 
e 多 义 关 系 中 的 茶 些 涵义 的 有 无 





例如 ， 句 子 “Miss Kim became a kind of big sister to Mrs. Park's 


son.” 是 可 以 接受 的 ， 而 句子 ”“Miss Kim became a kind of large sister to 
Mrs. Park's son.” 就 显得 有 些 怪 。 其 原因 在 于 ， 第 一 个 句子 中 的 big 这 个 多 
义 词 的 多 个 涵义 中 有 older 这 个 涵义 ， 而 large 这 个 多 义 词 的 多 个 涵义 中 ， 
没有 older 这 个 涵义 ， 因 此 ， 在 这 样 的 环境 下 ，big 和 large 不 能 相互 蔡 

换 。 





e 微妙 的 意义 色彩 的 差别 


例如 ， 句 子 “What is the cheapest first class fare ?” 是 可 以 接受 的 ， 而 
句子 “What is the cheapest first class price ?” 就 显得 有 些 怪 。 其 原因 在 
于 ，fare 比 较 适 合 于 描述 某 些 服务 中 需要 支付 的 费用 ， 而 price 通 常 适合 
于 描述 树 据 的 价格 ， 因 此 ， 第 二 个 句子 中 用 price 来 符 换 fare 就 显得 有 些 


奇怪 。 


e 搭配 约束 的 不 同 


人 例如， 句子 “They make a big mistake.” 是 可 以 接受 的 ， 而 句子 ” 
“They make a large mistake.” 就 显得 有 些 怪 。 其 原因 在 于 ， 当 描述 mistake 
比较 严重 时 ， 往 往 使 用 big 而 不 用 large， 也 就 是 说 ，mistake 倾 问 于 与 big 


搭配 ， 而 不 倾向 于 与 large 搭配 。 


下 面 a 栏 和 b 栏 的 搭配 是 不 一 样 的 : 


af bf 

strong argument powerful argument 
《有力 的 论据 ) 《有力 的 论据 ) 
strong tea powerful whiskey 
CRA) (烈性 的 威士忌) 
strong table powerful car 
(ALN) (动力 大 的 汽车 ) 


上 述 短语 的 结构 都 是 A+N《〈 形 容 词 + 名 词 ) 。 但 是 ， 在 a 栏 ， 
argument、tea、table 出 现在 strong 之 后 ; 在 b 栏 ，argument、whiskey、 
car 出 现在 powerful 之 后 。 讲 英语 的 人 ， 不 能 说 ”strong whiskey， 也 不 能 
ii” powerful tea， 和 否则， 就 是 搭配 不 当 。 





e 使 用 域 的 不 同 


使 用 域 (register) 是 指 语言 使 用 中 的 礼貌 因素 、 社 会 地 位 因素 以 及 
其 他 社会 因素 对 于 词语 使 用 的 影响 。 使 用 域 的 差别 也 会 影响 到 同义词 的 
选择 。 











使 用 域 是 语言 使 用 中 由 于 语言 环境 的 改变 而 引起 的 语言 变异 。 语 言 
环境 的 场景 、 交 际 者 、 方 式 三 个 组 成 部 分 ， 都 可 以 产生 新 的 使 用 域 。 





由 于 场景 的 不 同 ， 可 产生 科技 英语 、 非 科技 贡 语 等 使 用 域 。 科 技 瑞 
语 又 可 以 再 细 分 为 治 金 瑞 语 、 地 质 英 语 、 数 学 英语 、 物 理 英 语 、 化 学 英 
语 、 农 业 喘 语 、 医 学 英语 等 使 用 域 。 这 些 使 用 域 之 间 的 差异 ， 主 要 表现 
在 词汇 、 及 物性 关系 (transitivity relations) 和 话 言 各 结构 等 级 上 的 逻辑 
关系 的 不 同 。 











由 于 交际 者 的 不 同 ， 可 产生 正式 英语 、 非 正式 英语 以 及 介 于 这 两 者 
之 间 的 、 具 有 不 同 程度 的 正式 或 非 正 式 英 语 等 使 用 域 ， 还 可 以 产生 广告 
英语 、 幽 默 英语 、 应 酬 英 语 等 使 用 域 。 这 些 使 用 域 之 间 的 差 寞 ， 主 要 表 
现在 语气 、 情 态 以 及 单词 中 所 表达 的 说 话 者 的 态度 的 不 同 。 











由 于 方式 的 不 同 ， 可 产生 口头 英语 和 书面 英语 等 使 用 域 。 这 些 使 用 
域 之 间 的 差异 ， 主 要 表现 在 句 题 结构 主题、 述 题 ) 、 信 息 结 构 〈 新 信 
恩 、 旧 信息 ) 和 连贯 情况 《如 参照 、 蔡 代 、 省 略 、 连 接 等 ) 的 不 同 。 





在 机 器 翻译 中 ， 同 义 词 的 意义 色彩 送别、 搭配 约束 和 使 用 域 对 于 译 
文 的 质量 有 明显 的 影响 ， 我 们 应 该 考虑 到 这 些 因素 ， 正 确 地 选择 恰当 的 
同义词 。 














在 汉语 中 叶 存在 着 大 量 的 同义词 。 例 如 ，“ 电 脑 一 电子 计算 机 ”* 甘 
31 r38 — £038 408. 8835 LS 8 38 MUR Z6 33. 4 — 


Ly 2 "S. 





在 CWB 中 的 同义词 ， 还 包括 通常 所 说 的 异形 词 以 及 其 他 一 些 类 
型 ， 目 前 涉及 5,400 以 上 的 词 或 义 项 。 


除了 上 面 所 说 的 严格 的 同义词 之 外 ，CWB 的 同义词 还 包括 : 


一 异形 词 : 例如 ， 伊 妹 儿 一 依 妹 儿 :; 





一 全 称 与 简称 、 缩 略语 : 例如 ， 奥 林 匹 区 运动 会 一 奥运 会 ; 
一 术语 与 俗称 : 氧化 钠 一 食盐 ; 

一 现代 叫 法 和 旧称 、 古 称 : 例如 ， 月 亮 一 玉兔， 太阳 一 金 乌 ; 
一 普通 话 和 茶 些 方言 词 : 太阳 一 日 头 ; 

一 未 统一 的 译名 : 例如 ， 爱 汶 病 一 艾滋 病 ; 
ae. GRRE: 我 一 骂人 人 ; 


一 同一 个 概念 的 多 种 表达 方式 : PO, RR A, AE 
球 月 一 整 年 累 月 ， 防 患 未 然 一 防 患 于 未 然 ， 拉 大 旗 作 谋 皮 一 “ 拉 大 旗 ， 
TEBE BZ” o 


3. 上 下 位 关系 


如 果 两 个 词 位 中 ， 一 个 词 位 是 男 一 个 词 位 的 次 类 ， 那 么 就 说 它们 之 
间 存 在 上 下 位 关系 Chyponymy) 。car( 小 汽车 ) 和 vehicle (交通 工 
HO 间 的 关系 就 是 一 种 上 下 位 关系 。 上 下 位 关系 是 不 对 称 的 ， 我 们 把 特 
定性 较 强 的 词 位 称 为 概括 性 较 强 的 词 位 的 下 位 词 〈hyponym) ， 把 概括 
性 较 强 的 词 位 称 为 特定 性 较 强 的 词 位 的 上 位 词 Chypemym) 。 因 此 ， 
我 们 可 以 说 ，car 是 vehicle 的 下 位 词 ， 而 vehicle 是 car 的 上 位 词 。 


我 们 可 以 使 用 受 限 的 蔡 换 来 探讨 上 下 位 关系 的 概念 。 
我 们 来 考虑 下 面 的 组 调式 


This isa X => That is a Y 








在 这 个 缠 涵 式 中 ， 如 果 X 是 Y 的 下 位 词 ， 则 在 任何 情形 下 ， 当 左边 
的 句子 为 真 时 ， 右 边 新 产生 的 句子 也 必须 为 真 ， 例 如 。 我 们 有 : 








This is a car 之 That is a vehicle 


在 这 里 ， 新 生成 句子 的 目的 并 不 是 作为 原 句 的 答 换 ， 而 仅仅 是 作为 对 是 
售 存 在 上 下 位 关系 的 一 种 诊断 测试 。 所 以 ， 这 只 是 一 种 受 限 的 蔡 换 。 





动词 也 存在 上 下 位 关系 。 例 如 ， 汉 语 中 的 “ 打 ”， 其 下 位 词 有 “ 桂 ， 
ji, MH, H. 23. fh, FATT, TRITo mEUTR. 


上 下 位 关系 构成 庞大 的 等 级 体系 。 越 在 下 面 的 词 就 越 专 指 ， 也 即 外 
AE UB. 


下 面 是 从 这 种 等 级 中 抽取 的 片段 : 

信徒 教 徒 之 佛教 徙 之 僧尼 之 和 尚之 高 僧 

几何 图 形 之 多 边 形 之 三 角形 之 等 腰 三 角形 之 等 边 三 角形 
WN FAN N= SEND i Lp So RESTS 


Sl P= LA i> Aes AES ES Ki Sh 





数量 之 物理 量 之 标量 之 面积 之 地 积 


反应 之 答 理 之 理 茬 之 回答 之 答复 之 回电 





pU gris tit i93 9343 > EAR 75 

IER AHR AF? A IED IER? MIE 

7S ii > EA AAS HAFS HTH FE oR 
WRS AA Mo 9 HR FURS EA Bi 


SAGE SiG AIS I pili m HS 83 BS WARS I LOU S 
HH, BOR S WRITERS 


4. 整体 一 部 分 关系 


如 宁 两 个 词 位 中 ， 一 个 词 位 是 另 一 个 词 位 的 部 分 ， 那 么 ， 它 们 之 间 
就 存在 整体 一 部 分 关系 Cwhole-part) > Plin, “FASO, FPE, F 
掌 、 手 指 ” 之 间 就 存在 整体 一 部 分 关系 。“ 手 是 整体 ,“ 虎 口 、 手 臂 、 手 
掌 、 手 指 ” 是 * 手 ”的 部 分 。 "键盘 ?和 " 键 ? 之 间 也 存在 整体 一 部 分 关 
FR, “键盘 ?是 整体 ,“ 键 ?是 “ 键 各 ”的 部 分 。 “TE TT al tik. JERE. JE 
轮 之 间 也 存在 整体 一 部 分 关系 ,，“ 汽 车 ”是 整体 ,，“ 方 向 盘 、 底 盘 、 车 
轮 ” 是 部 分 。 




















整体 一 部 分 关系 不 仅仅 存在 于 物体 和 空间 中 ， 也 可 AE 于 时 间 、 
过 程 中 。 有 时 它们 也 与 上 下 位 一 样 构成 较 深 的 等 级 ， 例 如 , “宇宙 之 总 
P ue posi s ih en 
之 曾 母 暗沙 "。 从 这 个 意义 上 说 , “整体 一 2 aire, 
位 关系 ”， 它 们 之 间 的 区 别 在 于 ， 在 “整体 部 分 关系 ”中 , “部 分 词 ” 往 往 
不 继承 “整体 词 ? 的 属性 ， 而 在 “上 下 文 关 系 ” 中 ， ee SE 








位 词 ” 的 某 些 属性 ， 因 此 ， 如 果 X 是 部 分 词 ，Y 是 整体 词 , “整体 部 分 关 
系 ” 一 般 不 能 满足 更 涵 式 


This is a X = That is a Y. 


5. &E GT——JU 38 KA 


如 果 两 个 词 位 中 ， 一 个 词 位 是 另 一 个 词 位 所 包含 的 元 素 ， 那 么 ， 它 
们 之 间 就 存在 集合 一 元 素 关系 serelement》。 例 如 “五 后 "是 集 
合 ，“ 泰 山 、 华 山 、 山 山 、 恒 山 、 衡 山 "是 “五 一" 的 元 素 ，“ 孔 孟 "是 集 
合 ，“ 孔 子 、 孟 子 "是 “ 孔 备 " 的 元 素 ，“ 师 生 "是 集合 ，“ 教 师 、 学 生 "是 “ 师 
EHER. 











有 的 “集合 一 元 素 关 系 ” 与 “整体 一 部 分 el 但 是 ，“ 集 
合 一 元 素 关 系 ” 一 般 不 如 “整体 一 部 分 关系 ”紧密 fI —JU A FS" th 
n m 如 果 X 是 元 素 ， Y 是 集 
合 ,，“ 集 合 一 元 系 天 系 ” 一 般 能 满足 缠 涵 式 





This is a X = That is a Y. 


PLE REPRE CRK 


一 词 多 义 是 自然 语言 中 存在 的 普遍 现象 ， 在 机 器 翻译 中 ， 如 果 词 义 
翻译 错误 ， 译 文 不 能 正确 地 表示 原文 的 意 轧 ， 也 束 没 有 任何 价值 了 ， 所 
以 ， 词 义 排 歧 是 任何 机 器 翻译 系统 必须 解决 的 大 问题 。 此 外 ， 词 义 排 歧 
还 直接 关系 到 信息 检索 、 文 本 分 类 、 语 首 识 别 的 效率 。 








这 里 ， 我 们 首先 分 析 英 语 中 的 各 种 词汇 歧义 现象 ， 然 后 介绍 各 种 词 
义 排 歧 的 方法 : 选择 最 常见 涵义 的 方法 、 利 用 词类 进行 词义 排 上 疏 的 方 
法 、 基 于 选择 限制 的 方法 、 自 立 的 词义 排 歧 方法 、 有 指导 的 学 习 方 法 、 
目 举 的 词义 排 卜 方法 、 无 指导 的 词义 排 歧 方法 、 基 于 词典 的 词义 排 卜 方 
法 等 。 所 有 这 些 方法 都 需要 知识 ， 不 仅 需要 语言 知识 ， 还 需要 常识 和 世 
界 知识 ， 所 以 ， 所 有 这 些 方法 都 可 以 叫做 “基于 知识 的 词义 排 歧 方 
法 ”(knowledge-based WSD approach) . 














英语 中 的 名 词 、 代 词 、 动 词 、 形 容 词 、 连 接 词 、 介 词 都 存在 监 义 ， 
这 里 举例 介绍 如 下 。 


1. 名 词 中 的 监 义 


e 多 义 词 : 具有 多 个 涵义 的 词 位 叫做 多 义 词 ， 多 义 词 中 的 各 个 涵义 
是 有 联系 的 。 





例如 ， 在 句子 John is a bachelor. 中 ，bachelor 有 两 个 不 同 的 意思 ， 一 


个 意思 是 “单身 汉 ”(Cunmarried man) ， 一 个 意思 是 “学 士 ”(first 














university degree) ， 从 而 造成 歧义 。 我 们 可 以 把 这 种 情况 写 为 如 下 的 形 
式 : 


John is an unmarried man. 
John holds a first university degree. 


5 John is a bachelor 





这 表示 ，bachelor 是 一 个 多 义 词 ， 它 的 不 同 的 意思 ， 由 箭头 前 面 的 两 个 
句子 表示 出 来 。 


其 他 关于 名 词 蚊 义 的 例子 还 有 : 


1) John is a medical doctor. 
John is a doctor of philosophy. 


5 John is a doctor . 








Doctor X. nf EEE”, qup DEE”, AER SC o 


2) He is looking for his drinking glasses. 
He is looking for his reading glasses. 


5 He is looking for his glasses . 
Glasses 的 涵义 可 以 是 “玻璃 标 ”， 也 可 以 是 “眼镜 ”"， 从 而 造成 上 疏 义 。 


3) Here is a small lamb. 
Here is a small amount of lamb. 


5 Here is a little lamb . 


Lamb 的 含义 可 以 是 “小 羊 ?， 也 可 以 是 “羊肉 ”， 从 而 造成 蚊 义 。 














e 同形 寞 义 词 : 词 形 相同 而 意思 不 同 的 词 叫 同形 异 义 词 ， 同 形 异 义 
词 中 的 各 个 涵义 之 间 没 有 联系 。 例 如 ， 


1) He looked at the river bank.. 
He looked at the money bank. 
5 He looked at the bank . 








Bank 的 涵义 可 以 是 “河岸 "， 也 可 以 是 “银行 >?， 从 而 造成 歧义 。 前 面 我 们 
说 过 ， 据 词 源 学 家 考证 : “河岸 "的 意义 来 自 斯 堪 底 纳 维 亚 语 ，“ 银 行 * 的 
意义 来 自 意大利 语 。 





2) The period of sleep of the army was insufficient. 
The remainder of the army was insufficient. 


5 The rest of the army was insufficient. 





Rest HIY X. n] LA ze REIRET TH)”, te np PAESI oe”, Mf xs xe X « 











从 计算 机 处 理 语 言 的 角度 来 看 ， 多 义 词 和 同形 异 义 词 在 实质 上 没有 
区 别 ， 因 此 ， 在 机 器 翻译 中 ， 我 们 没有 必要 区 分 它们 ， 把 它们 一 律 作为 
TAIL BL SCORE A HE 


e 名 词 的 单数 形式 和 复数 形式 相同 而 造成 的 歧义 : 例如 ， 


1) Isaw this sheep graze in the field. 
I saw these sheep graze in the field. 


5 I saw the sheep graze in the field. 


Sheep 的 单数 形式 和 复数 形式 相同 ， 所 以 ， 难 于 辨别 它 的 数 ， 从 而 造成 
歧义 。 


2) They put the condemned person to death. 
They put the condemned persons to death. 
5 They put the condemned to death. 





Condemned 这 个 过 去 分 词 形 式 作为 名 词 使 用 ， 难 于 辨别 它 是 单数 还 是 复 
数 ， 产 生 歧 异 。 


e Ai ip x: 例如 ， 


1) He is a news reporter from Australian Broadcasting Company. 
He is a news reporter from American Broadcasting Company. 


5 He is a news reporter from ABC . 


缩写 词 ABC 的 涵义 可 以 是 澳大利亚 广播 公司 ， 也 可 以 是 美国 广播 公司 ， 
从 而 造成 监 义 。 


2) Inthis book, hetalks about the World Without War. 
In this book, he talks about the World Wide Web. 
5 In this book, he talks about WWW . 


缩写 词 WWW 的 涵义 可 以 是 “没有 战争 的 世界 *”， 也 可 以 是 “万 维 网 ”从 
MERKX. 


2. fis] P gs X. 


例如 ， 


1) Nobody said he himself was wrong. 


Nobody said the person in question was wrong. 


5 Nobody said he was wrong. 
代词 he 完 竟 是 指 “ 说 话 人 自己 ?还 是 指 “ 所 说 的 另 一 个 人 ”， 难 于 分 辨 ， 从 
ID Het IBY SL 
2) He killed himself by shooting 


He shot personally. 


5 He shot himself . 











Himself 完 竟 是 指 “ 自 己 射 击 自己 ”， 也 就 是 < 自杀 ”， 还 是 指 射 击 人 “亲自 
射击 ”， 难 于 分 辨 ， 从 而 造成 歧义 。 
3) Everyone was eating a large cake together. 


Everyone was eating a large cake respectively. 


5 Everyone was eating a large cake. 


Everyonezé fH “ARSE AIS —^ P ERES", BEBE ASP A — BK 
FR". XE TER. Mats x. 
4) Every sailor loves his own girl. 


Every sailor loves the same girl. 


> Every sailor loves a girl. 


Every 是 指 “ 每 一 个 海员 都 喜欢 目 己 的 姑娘 ”， 还 是 “每 一 个 海员 都 喜欢 同 
一 个 姑娘 ?， 难 于 分 辨 从 而 造成 歧义 。 


3. Nim] P BJ C X 


例如 ， 


1) Iheard the child weeping. 
I heard the child shouting. 
5 [heard the child crying . 


Crying 的 涵义 可 以 是 “器 ”， 也 可 以 是 “喊叫 >”， 从 而 造成 歧义 。 


2) John is pulling a cart. 
John is making a picture of a cart. 


5 John is drawing a cart 





Drawing Hie X nf DÆ”, ta np bit Em, Miia eu v.e 


3) They never saw the wood with their own eyes. 
They never cut the wood with a saw. 


5 They never saw the wood. 


Sawa X n ee”, inp Dei”, Mamas a x. 


4. ÉR i8] P PITE XL 


例如 ， 


1) John is a mechanic with little money. 
John is a mechanic who lacks competence. 


5 John is a poor mechanic. 


Poor 的 涵义 可 以 是 “贫穷 的 ”， 也 可 以 是 “糟糕 的 ”， 从 而 造成 蚊 义 。 


2) She is a student who is a Japanese. 
She is a student who studies Japanese. 


5 She is a Japanese student. 
Japanese 的 涵义 可 以 是 “日 语 的 ”， 也 可 以 是 “日 本 的 ”>， 从 而 造成 政 义 。 


3) He tried to speed up the ship. 
He tried to fasten the ship. 
5 He tried to make the ship fast . 


Fast 的 涵义 可 以 是 “ 快 ?， 也 可 以 是 “ 拉 紧 ”， 从 而 造成 歧义 。 


4) That was a clever idea. 
That was a stupid idea. 


5 That was a brilliant idea. 








Brilliant] X. nf DEBRA”, tup PATE" RR ASH". Masa x 


5) He is a salesman who is sweet. 
He is a man who sells sweets (in this case, ‘sweets’ is a noun). 


5 He is a sweet salesman. 





Sweetie X BJ LLERA”, EP UER”, Mats x. 
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例如 ， 


1) When it becomes cold, we do not go outside. 
Because it became cold, we do not go outside. 


5 As it became cold, we do not go outside. 
Asi x n] Eze 2A ARR”, THAT EAA”, Mae xa X o 


2) When I was working at night in the library, I saw Mary often 
Although I was working at night in the library, I saw Mary often. 


5 While I was working at night in the library, I saw Mary often. 
While 的 涵义 可 以 是 “ 当 什 么 时 候 ?， 也 可 以 是 “尽管 >， 从 而 造成 歧义 。 


3) From the time when I lost my glasses yesterday till now, I haven't 
been able to do any work. 

Because I lost my glasses yesterday, I haven't been able to do any 
work. 

5 Since I lost my glasses yesterday, I haven't been able to do any 


work. 


Sinceff'] X PJ VENTA pen, quur eA”, Mte X e 


6. 介词 中 的 歧义 


例如 ， 


1) The reminiscence written by my father was very interesting. 


The reminiscence about my father was very interesting. 


5 The reminiscence of my father was very interesting. 


Of my father 的 涵义 可 以 是 “我 父亲 写 的 "， 也 可 以 是 “关于 我 父亲 的 "， 从 
而 造成 歧义 。 


2) John stays with Tom. 
John agrees with Tom. 


5 John is with Tom. 








With Tom 的 涵义 可 以 是 “ 跟 Tom 在 一 起 ”， 也 可 以 是 “同意 Tom 的 意见 ”， 
从 而 造成 歧义 。 


3) John hits the man by means of the stick. 
John hits the man who carried the stick, 


5 John hits the man with the stick. 


With the stick 是 一 个 介词 短语 ， 它 可 以 修饰 名 词 短语 the man， 也 可 以 修 
饰 动词 hits， 从 而 造成 上 收 义 。 这 样 的 句法 结构 歧义 与 介词 with 具 有 不 同 
的 泗 义 有 关 ， 所 以 ， 也 可 以 看 成 是 由 于 with 涵 义 的 不 同 而 造成 的 皮 义 。 
ig X HE CWord Sense Disambiguation， 人 简称 WSD) 是 自然 语言 计算 机 
处 理 中 的 一 个 很 困难 的 问题 。 


4) The damage was brought about by the river. 
The damage was done beside the river. 


5 The damage was done by the river. 
By 的 涵义 可 以 是 “由 于 也 可 以 是 “在 什么 旁边 "， 从 而 造成 收 义 。 


由 以 上 的 分 析 可 以 看 出 ， 英 语 中 的 词汇 皮 义 现象 分 布 很 广 ， 涉 及 到 





各 主要 的 词类 ， 而 且 ， 不 同 的 蚊 义 都 有 很 强 的 特异 性 ， 很 不 容易 及 现 一 
般 性 的 规律 。 


当然 ， 对 于 人 来 说 ， 要 判定 词汇 监 义 并 不 困难 ， 人 们 可 以 根据 语言 
环境 或 上 下 文 ， 在 多 义 词 的 多 个 涵义 中 选择 最 恰当 的 涵义 。 但 是 ， 对 于 
计算 机 来 说 ， 要 从 多 个 涵义 中 进行 正确 的 选择 ， 却 是 非常 困难 的 事情 。 


第 六 和 几 种 重要 的 词义 排 蚊 方法 


由 于 多 义 词 是 任何 语言 中 都 普遍 存在 的 现象 ， 而 多 义 词 中 诸多 的 词 
义 分 布 又 很 不 容易 找到 一 般 的 规律 ， 多 义 词 的 自动 排 玉 涉及 到 上 下 文 因 
素 、 语 义 因素 、 语 境 因素 ， 还 涉及 到 甚至 日 常生 活 中 的 常识 ， 而 这 些 因 
素 的 处 理 ， 恰 恰 是 计算 机 最 感 埋 手 的 问题 。 所 以 ， 词 义 排 歧 是 自然 语言 
计算 机 处 理 研 究 中 的 一 个 特别 困难 的 问题 。 





早 在 机 右 翻 译 刚刚 问世 的 时 候 ， 美 国 著 名 数理 逻辑 学 家 巴 希 勒 在 
1959 年 就 指出 ， 全 自动 高 质量 的 机 器 翻译 《Fully Automatic High Quality 
Machine Translation， 简 称 FAHQMT) 是 不 可 能 的 ， 他 说 明 ，FAHQMT 不 
仪 在 当时 的 技术 水 平 下 是 不 可 能 的 ， 而 且 ， 在 理论 原则 上 也 是 不 可 能 
的 。 


他 举 出 了 如 下 简单 的 英语 片段 ， 说 明 要 在 上 下 文中 发 现 多 义 词 pen 
的 正确 译文 是 非常 困难 的 事情 。 


John was looking for his toy box. Finally he found it. The box was in the 


pen . John was very happy. 
他 的 理由 如 下 : 


G) pen 在 这 里 只 能 翻译 为 游戏 的 围栏 ”〈play-pen) ， 而 绝对 不 能 
翻译 为 书写 工具 “钢笔 ”。 





Gi) 要 确定 pen 的 这 个 正确 的 译文 是 翻译 好 这 段 短文 的 关键 所 在 。 


(省 》 而 要 确定 这 样 的 正确 译文 依赖 于 计算 机 对 于 周转 世界 的 一 般 


知识 。 
Giv) 但 是 我 们 没有 办 法 把 这 样 的 知识 加 到 计算 机 中 去 。 
可 见 ， 词 义 排 卜 问题 一 开始 束 困 扰 着 刚刚 靖 芽 的 机 器 翻译 研究 。 


从 1959 年 到 现在 已 经 50 多 年 了 ， 学 者 们 在 探索 多 义 词 排 琉 的 研究 中 
做 了 大 量 的 工作 。 尽 管 词义 排 琉 的 问题 距离 彻底 解决 还 非常 遥远 ， 但 
和 是， 从 这 50 多 年 的 成 加 已 经 可 以 让 我 们 看 到 希望 的 曙光 。 





2007 年 ， 陈 (Chan Y. S) 等 在 Procedings of the 45" Annual Meeting 
of the Association for Computational Linguistics (ACL) ERK Y “tl X HE 
改善 统计 机 器 翻译 ”(Word Sense Disambiguation Improves Statistical 
Machine Translation ) 的 文章 ， 证 明 词 义 排 皮 可 以 显著 地 提高 统计 机 器 
翻译 的 准确 紊 ， 从 而 把 词义 排 皮 作为 自然 语言 处 理 的 一 个 重点 问题 来 研 


分 ~ 


九 。 





下 面 ， 我 们 介绍 几 种 重要 的 词义 排 歧 的 方法 : 
1. 选择 最 弟 见 泣 义 的 方法 


词义 排 皮 的 最 简单 的 统计 技术 是 找 出 有 上 收 义 的 单词 在 语料库 中 具有 
最 高 频 度 的 涵义 ， 并 把 这 个 涵义 选择 为 缺 省 值 (default) ， 也 就 是 把 最 
常见 的 涵义 选择 为 有 歧义 单词 的 当前 涵义 。 这 样 的 方法 叫做 “选择 最 和 营 
见 涵 义 的 方法 ”(Most Frequency Approach) 。 这 种 方法 需要 首先 对 语 料 
库 进 行 语义 标注 ， 然 后 从 这 个 具有 语义 标注 的 语料库 中 ， 选 择 有 关 单 词 
的 最 常见 的 涵义 作为 排 歧 结果 。 例 如 ， 在 句子 “Pupils from a school in 





north Beijing met with a film star.” 中 ，Ppupil，school，film，star 等 单词 都 
是 有 卜 义 的 。Pupil 的 涵义 可 以 是 “学 生 ， 也 可 以 是 “瞳孔 ”， 其 最 常见 的 
涵义 是 “学 生 ”， 语 料 库 中 的 标记 是 STUDENT; school 的 涵义 可 以 是 “学 
X”， 也 可 以 是 “ 鱼 群 ”或 “水 生动 物 群 "， 其 最 常见 的 涵义 是 “学 校 *， 语 料 
库 中 的 标记 是 INSTITUTION; film 的 涵义 可 以 是 “电影 ?*， 也 可 以 是 “ 纤 
维 注 腊 ”"， 其 最 常见 的 涵义 是 “电影 ?”， 语 料 库 中 的 标记 是 SHOW; star 的 
涵义 可 以 是 “电影 明星 ”， 也 可 以 是 “天 上 的 星星 ”， 其 最 常见 的 涵义 

是 “电影 明星 ”， 语 料 库 中 的 标记 是 ENTERTAINER。 我 们 根据 语料库 选 
择 最 常见 的 涵义 ， 得 出 如 下 的 结果 : 





























Pupils/STUDENT from/SOURCE a school/INSTITUTION in 
north/POSITION Beijing/CITY met/COME TOGETHER 
with/PARTICIPANT a film/SHOW star/ENTERTAINER. 








根据 句子 中 多 义 词 的 最 常见 涵义 ， 这 个 句子 的 意思 应 该 是 : 





“来 目 北京 北部 学 校 的 学 生 们 与 电影 明星 见面 。” 
这 样 便 得 到 了 这 个 句子 中 的 多 义 词 的 词义 排 玉 的 结果 。 


在 标注 了 语义 的 大 规模 语料库 中 ， 我 们 可 以 统计 出 多 义 词 最 常见 涵 
义 ， 并 把 这 个 最 常见 的 涵义 作为 该 多 义 词 的 “ 缺 省 值 ”〈default) 。 例 
如 ， 在 这 样 的 语料库 中 ， 如 果 pupil 作 为 STUDENT 的 涵义 出 现 的 次 数 是 1 
000 个 词 次 ， 而 作为 BODY_PART (身体 的 一 部 分 ， 即 “瞳孔 ”) 的 涵义 
出 现 的 次 数 是 50 词 次 ， 那 么 ， 根 据 选 择 最 常见 涵义 的 方法 ， 对 于 其 他 没 
有 做 过 语义 标注 的 文本 中 的 pupil， 都 要 一 律 标注 为 STUDENT， 哪 怕 它 
在 某 个 文本 中 的 涵义 应 该 是 BODY_PART。 显 而 易 见 ， 这 种 选择 最 常见 
涵义 的 方法 是 有 局 限 性 的 。 








有 的 学 者 通过 试验 证 明 ， 使 用 这 种 简单 的 方法 给 通用 英语 做 语义 标 
注 ， 其 准确 率 大 约 为 70%。 严 格 地 说 ， 对 于 封闭 文本 ， 准 确 率 为 
67.59%6， 对 于 开放 文本 ， 准 确 率 为 64.8%。 


早期 的 机 喜 翻 译 系统 没有 词义 排 琉 的 功能 ， 虽 然 机 堪 词 典 中 的 多 义 
词 都 列举 出 各 种 不 同 的 义 项 ， 但 实际 上 系统 在 运行 时 只 是 选择 排列 在 第 
一 位 的 那个 最 常见 的 义 项 。 这 样 的 办 法 虽然 能 够 处 理 一 些 多 义 词 ， 达 到 
一 定 的 排 卜 目 的 ， 但 是 ， 词 义 排 歧 的 效率 不 高 ， 这 是 早期 机 器 翻译 系统 
译文 质量 低劣 的 重要 原因 之 一 。 例 如 ， 在 上 面 巴 希 勒 举 出 的 例子 中 ， 由 
于 pen 最 常见 的 词义 是 “钢笔 ”， 如 果 把 pen 翻 译 成 “钢笔 ”， 那 么 “The box 
was in the pen.” 束 势必 要 翻译 成 “盒子 在 钢笔 中 ”， 这 样 的 翻译 结果 显然 
是 很 可 笑 的 。 








2. 基于 规则 的 词义 排 皮 的 方法 





基于 规则 的 词义 排 卜 的 方法 主要 有 : 利用 词类 进行 词义 排 叔 的 方 
法 、 利 用 选择 限制 进行 词义 排 疏 的 方法 、 利 用 优选 关系 进行 词义 排 叔 的 
方法 。 下 面 分 别 加 以 介绍 。 


e 利用 词类 进行 词义 排 皮 的 方法 








有 些 多 义 词 的 词义 与 它们 所 属 的 词类 有 关 。 不 同 的 词义 往往 属于 不 
同 的 词类 。 因 此 ， 如 果 我 们 能 够 确定 这 些 多 义 词 的 词类 ， 词 义 排 卜 的 问 
题 也 就 迎刃而解 了 。 











例如 ， 


face: 当 face 是 动词 时 ， 它 的 词义 是 “ 面 对 ”; 当 face 是 名 词 时 ， 它 的 
词义 是 “面孔 ”。 在 “The house faces the park” 中 ，faces 前 面 为 名 词 词 
组 “the house”， 后 面 也 为 名 词 词组 “the park”， 可 判定 为 动词 ， 因 而 它 的 
词义 是 “ 面 对 ”， 整 句 的 意思 是 “房子 面 对 公 园 ”。 在 “She pulled a long face 
.2 中，face 前 面 是 形容 词 ， 可 判定 为 名 词 ， 它 的 词义 是 “面孔 ”， 整 句 的 
意思 是 “她 拉 长 了 面孔 ”。 








May〔 第 一 个 字母 M 大 写 ) : 当 May 是 助动词 时 ， 它 的 词义 是 “可 
以 ”(〈 在 句子 开头 ， 第 一 个 字母 大 写 ， 在 其 他 情况 下 ， 第 一 个 字母 不 大 
写 ) ， 当 May 是 名 词 并 且 第 一 个 字母 大 写 时 ， 它 的 词义 是 “五 月 ”。 
在 “May I help you?” 中 ，May 是 助动词 。 因 而 它 的 词义 是 “可 以 ”， 整 个 名 
子 的 意思 是 “我 可 以 帮助 你 吗 ? ”在 “May Day is the first day of May.” +, 
May 是 名 词 ， 因 而 它 的 词义 是 “五 月 ”， 整 个 句子 的 意思 是 “五 月 一 日 是 五 
月 的 第 一 天 ”。 














can: 当 can 是 助动词 时 ， 它 的 词义 是 “能 够 ?， 当 can 是 名 词 时 ， 它 的 
意思 是 “ 饮 涉 ”。 在 “She can speak German.” 中 ，can 处 于 动词 speak 前 面 ， 
人 称 代词 she 的 后 面 ， 可 判定 为 是 助动词 ， 因 而 它 的 词义 是 “能 够 ?， 整 
个 句子 的 意思 是 “她 能 够 说 德语 >。 在 “He opened a can of beans.” 中 ，can 
前 面 是 不 定 冠 词 ， 后 面 是 介词 ， 可 判定 为 名 词 ， 因 而 它 的 词义 是 “ 镶 
K, BaF Ne Be HT ATS tie”. 








will: 当 w 训 是 助动词 时 ， 它 的 词义 是 “将 要 ”， 当 w 训 是 名 词 时 ， 它 
的 意思 是 “意志 ”。 在 “It will rain tomorrow.” 中 ，w 记 前 面 是 代词 ， 后 面 是 
动词 ， 可 判定 为 助动词 ， 因 而 它 的 词义 是 “将 要 ”， 整 个 句子 的 意思 
是 “明天 将 要 下 雨 "。 在 “Free will makes us able to choose our way of 
life.” 中 ，wil 前 面 是 形容 词 ， 后 面 是 第 三 人 称 现在 时 动词 ， 可 判定 为 名 
词 ， 因 而 它 的 词义 是 “意志 ”， 整 个 句子 的 意思 是 “自由 的 意志 使 得 我 们 














能 够 选择 我 们 的 生活 方式 ”。 


kind: 当 kind 是 名 词 时 ， 它 的 意思 是 “种 类 ”， 当 kind 是 形容 词 时 ， 
它 的 意思 是 “亲切 ”。 在 “I like that kind of book.” 中 ，kind 在 指示 词 that 之 
后 ， 在 介词 of 之 前 ， 可 判定 为 名 词 ， 因 而 它 的 词义 是 “种 类 ”， 整 个 句子 
意思 是 “我 喜欢 这 种 书 ”。 在 “It was very kind of you to do it.” 中 ，kind 在 
副词 very 的 后 面 ， 介 词 of 的 前 面 ， 可 判定 为 形容 词 ， 因 而 它 的 词义 是 “ 杀 
切 ”， 整 个 句子 的 意思 是 “你 做 这 件 事 显 得 非常 杀 切 ”。 








LL 





如 果 我 们 设计 一 个 高 效率 的 词性 标注 系统 ， 可 以 正确 地 决定 兼 类 的 
多 义 词 的 词类 ， 那 么 ， 我 们 就 可 以 利用 标注 正确 的 词类 ， 来 决定 多 义 词 
的 词义 ， 从 而 达到 词义 排 歧 的 目的 。 

可 是 ， 当 同一 个 词类 的 多 义 词 还 存在 多 个 不 同 的 词义 的 时 候 ， 这 
种 “以 词类 决定 词义 ”的 方法 就 显得 无 能 为 力 了 ， 因 为 在 判定 了 词类 之 
后 ， 还 需要 对 不 同 的 词义 进行 选择 。 





例如 ，works 这 个 多 义 词 可 兼 属 动 词 和 名 词 ， 当 它 是 动词 的 时 候 ， 
它 的 词义 是 “工作 ”， 当 它 是 名 词 的 时 候 ， 它 的 词义 可 以 是 “工厂 ”， 也 可 
以 是 “著作 ”。 在 句子 “My daughter works in an office.” 中 ，works 处 于 名 词 
词组 之 后 ， 介 词 之 前 ， 可 判定 为 动词 ， 因 而 它 的 词义 是 “工作 ”， 整 个 句 
子 的 意思 是 “我 女儿 在 一 个 办 公 室 工作 ”。 














可 是 ， 当 判定 works 为 名 词 的 时 候 ， 它 的 词义 还 没有 最 后 决定 ， 这 
WLS HH ELPA EE uit ot en A. ZEA) “It is a gas works. ”和 人 句子 “] read the 
works of Shakespears.” 中 ，works 都 可 以 判定 为 名 词 ， 如 条 只 是 根据 词 
类 ， 我 们 决定 不 了 前 句 中 works 的 词义 是 “工厂 ”， 后 句 中 的 works 的 词义 
是 “著作 ”。 











这 时 ， 我 们 还 需要 根据 上 下 文 的 选择 限制 来 排 上 收 。 比 如 说 ， 如 果 我 
们 规定 ，works 与 表示 燃料 的 名 词 连 用 ， 可 判定 其 词义 是 “工厂 ”， 当 
works 与 作家 的 名 字 连 用 ， 可 判定 其 词义 是 “著作 ”， 那 么 ， 我 们 就 可 以 
根据 这 样 的 选择 限制 来 进行 词义 排 歧 了 。 





e 利用 选择 限制 进行 词义 排 卜 的 方法 


选择 限制 Cselectional restriction) 和 语义 类 型 的 分 类 (type 
hierarchies) 是 词义 排 玫 的 主要 的 知识 源 。 在 语义 分 析 中 ， 它 们 被 用 来 
删除 不 恰当 的 语义 从 而 减少 蚊 义 的 数量 。 





最 早 研究 选择 限制 的 是 生成 语言 学 家 卡 效 和 弗 托 。 


例如 ， 形 容 词 handsome 有 三 个 意思 是 “美观 的 ”， 二 是 “慷慨 
HJ", = Fea SKY” 


第 一 个 意思 只 能 指 人 或 指 人 工 制品 ， 例 如 ， 可 以 说 handsome 
fellow (英俊 的 人 ) ~ handsome building 〈 美 观 的 房子 ) ， 因 此 ， 其 选择 
限制 为 <(Human)V (Artifact)>， 其 中 ,“V ”表示 逻辑 析 取 (“或 ”) 。 


第 二 个 意思 只 能 指 行为 ， 例 如 ， 可 以 说 handsome treatment 〈 慷 慨 的 
待遇 ) ， 其 选择 限制 为 <(conduct)>。 


Rios d. 例如 ， 可 以 说 handsome sum 〈 可 观 的 数 
， 其 选择 限制 为 <(Amount)>。 





如 果 把 handsome fellow 理 解 为 “可 观 的 人 ”， 就 违反 了 选择 限制 。 
不 难看 出 ， 选 择 限制 在 研究 词 与 词 之 间 的 搭配 关系 时 是 很 有 用 的 。 


乔 姆 斯 基 在 他 的 标准 理论 中 ， 接 受 了 “选择 限制 ?的 概念 ， 我 们 认 
为 ， 选 择 限制 是 生成 语言 学 (generative linguistics) 的 一 个 最 主要 成 
就 。 


198727, ARE CG. Hirst) 把 生成 语言 学 中 选择 限制 的 概念 应 
用 于 自然 语言 计算 机 处 理 。 我 们 在 这 里 介绍 赫 尔 斯 特 的 工作 。 





例如 ，dish 是 一 个 多 义 词 ， 怎 样 来 确定 它 的 含义 呢 ? 
我 们 来 研究 下 面 的 一 段 话 : 


“In our house, everybody has a career and none of them includes 


washing dishes ,” he says. In her tiny kitchen at home, Mr. Chen works 





efficiently, stir-frying several simple dishes , including braised pig's ears 
and chicken livers with green peppers. 

他 说 道 , “在 我 们 的 房子 里 ， 每 一 个 人 都 有 目 己 的 事情 ， 可 以 这 
些 事情 不 包括 洗 碎 子 。*” 在 她 的 小 厨房 里 ， 陈 先生 干 得 很 有 成 效 ， 
他 炒 几 个 简单 的 邓 看 ， 包 括 炖 猪 耳 朱 和 青椒 炒 鸡 肝 。) 


前 句 中 的 dishes 是 用 于 吃饭 的 物理 客体 (physical object) ， 后 句 中 
的 dishes 则 是 荣 看 。 它 们 的 选择 限制 各 不 相同 ， 前 者 是 wash 的 
PATIENT 〈 受 事 ) ， 它 应 该 具有 可 洗 性 〈washable) ， 它 的 意思 是 “ 矶 
TX 后 者 是 stir-fry 的 PATIENT 〈 受 事 ) ， 它 应 该 具有 可 食性 
(edible) ， 它 的 意思 是 “ 荣 肴 ”。 谓 词 选择 符合 论 元 “argument) 语义 限 


制 的 正确 含义 ， 删 除 不 能 匹配 的 含义 。 














由 此 可 见 ， 使 用 选择 限制 实际 上 是 一 种 “ 观 其 伴 而 知 其 意 ”(You 
shall know a word by the company it keeps.) 方法 。 


使 用 选择 限制 时 ， 我 们 一 般 要 确定 多 义 词 的 上 位 概念 ， 然 后 根据 上 
位 概念 与 句子 的 中 心 谓词 的 搭配 关系 来 选择 这 个 多 义 词 的 恰当 涵义 。 





例如 ， 我 们 来 研究 如 下 的 句子 : 


a. The crane flew over plain.〈crane 的 上 位 概念 = bird) 
b. The builder operated the crane . (crane 的 上 位 概念 = 


machine) 





在 这 两 个 句子 中 ， crane 是 一 个 多 义 词 ， 它 的 涵义 可 以 是 “ 乱 ”， 这 
它 的 上 位 概念 是 machine (机 器 〉。 


句子 a 的 中 心动 词 flew 要 求 它 的 主语 是 bird， 这 样 的 选择 限制 不 容许 
它 的 主语 是 machine， 因此 ， 句子 a 中 的 crane 的 涵义 应 该 是 “ 息 ”， 而 不 
是 “起 重 机 ?”。 





同 理 ， 句 子 b 的 中 心动 词 operated 要 求 它 的 宾语 是 machine， 这 样 的 
选择 限制 不 容许 它 的 宾语 是 bird， 因 此 ， 句 子 b 中 crane 的 涵义 应 该 是 “起 
HEL”, WAE”. 





美国 普林斯顿 大 学 米 勒 (Miller) 等 设计 的 “ 词 网 ”(WordNet)〉 用 同 
义 词 集 (Synset) 把 英语 中 的 单词 组 织 起 来 ， 表 示 单 词 之 间 的 复杂 的 语 
义 关 系 ， 我 们 可 以 根据 词 网 中 的 语义 关系 来 建立 语义 层级 关系 ， 并 在 机 
器 词典 中 存储 多 义 名 词 的 语义 类 型 信息 (type) 和 动词 的 选择 限制 信息 
(selectional restriction〉， 束 可 以 使 用 这 些 信息 来 进行 词义 排 歧 。 














例如 ， 对 于 上 面 的 例子 ， 我 们 可 以 建立 如 下 的 语义 层级 关系 图 ， 并 
在 有 关 结 点 上 标 上 语义 类 型 的 信息 : 





Object 


P lcm 


animate artifact 
bird human machine building 
crane 1 crane 2 


图 2.16 语义 层级 关系 图 
在 词典 中 ， 我 们 可 以 存储 如 下 的 信息 : 


crane (type: crane1) 

crane (type: crane2) 

builder (type: human) 

operate (subj: human, obj: machine) 
fly (subj: bird) 


从 词典 中 可 以 看 出 ， 动 词 operate 的 选择 限制 是 : 主语 的 语义 类 型 为 





human， 宾 语 的 语义 类 型 为 machine; 动词 fy 的 选择 限制 是 : 主语 的 语 


义 类 型 为 bird。 


根据 这 些 信息 ， 计 算 机 残 可 以 自动 地 选择 多 义 词 的 恰当 涵义 ， 达 到 


词义 排 歧 的 目的 。 
例如 ,根据 上 述 的 选择 限制 ， 可 以 自动 地 判定 句子 
The crane flew over plain 


中 的 crane 是 乌 类 : $5; 


并 自动 判定 句子 
The builder operated the crane 
中 的 crane 是 机 器 : 起 重 机 。 

如 果 我 们 在 语义 层级 关系 图 的 边 上 使 用 谓词 “isa”，“has_part” 等 作 
为 标记 ， 那 么 ， 我 们 就 可 以 得 到 一 个 语义 框架 图 Csemantic frame) 。 如 
下 图 所 示 : 

使 用 语义 框架 图 中 的 信息 ， 可 以 帮助 我 们 判定 在 多 义 词 的 两 个 或 多 
个 涵义 中 ， 哪 一 个 涵义 是 最 符合 句子 在 语义 上 的 要 求 ， 从 而 达到 词义 排 
旷 的 目的 。 名 子 中 多 义 词 优选 的 涵义 是 与 该 多 义 词 相 结合 的 单词 涵义 在 
语义 距离 (semantic distance) 上 最 接近 的 涵义 。 








那么 ， 怎 样 来 确定 语义 框架 图 中 结 扣 之 间 的 语义 距离 昵 ? 





我 们 要 在 语义 框 染 图 中 表示 谓词 的 每 一 个 边 上 给 一 个 权 值 
(weight) ， 然 后 使 用 标准 的 最 短路 径 算法 来 计算 语义 距离 ， 取 与 相应 
问题 有 关 的 结 点 之 间 的 最 小 权 值 的 语义 距离 作为 优选 的 结果 。 





例如 ， 我 们 来 研究 wing, bird 和 crane 的 两 个 涵义 的 语义 框架 : 


[instance_of: wing, 
isa: physical object] 
[instance of: bird, 

isa: animal, 
has part: wing] 
[instance of: cranei, 


isa: bird] 


[instance of: crane2, 


isa: machine] 
crane1 的 涵义 是 “ 乱 ”"，crane2 的 涵义 是 “起 重 机 ”。 


这 些 框架 可 以 参看 图 2.17。 


physical. object 


isa isa 
isa 


wing animal machine 
has part | isa | isa 
bird crane 2 
| isa 
crane | 


图 2.17 语义 框架 图 








我 们 假定 各 个 谓词 的 权 值 如 下 : 


isa=0.1 isa!-0.95 has part=0.3 has part! = 0.8 





Hh, isat 表示 isa 的 逆 关 系 〈 箭 头 方向 相反 ) has part! 表示 
has_part 的 逆 关 系 ， Hox part of. 方向 相反 的 连接 的 权 值 是 不 同 


的 。 


两 个 结 点 a 和 b 之 间 的 语义 距离 用 D(a, b) 表 示 ，D(a, b) 按 下 面 的 公式 


计算 : 


D(a, b) = min (d(a, b), d(b, a)) 


这 里 ，d(x，y) 表 示 结 点 x 和 和 y 之 间 的 语义 距离 ， 结 点 a 和 b 之 间 的 语义 距离 
取 d(a, bl 和 db, a) 的 最 小 值 。 


现在 ， 我 们 根据 图 2.17 中 的 语义 框架 图 ， 通 过 计算 语义 距离 的 方 
法 ， 对 于 歧义 短语 “crane's wing" ETT HEX. 


从 图 2.17 中 我 们 得 到 如 下 的 数据 : 


d( wing, cranel ) = has part ^! + isa = 0.8 + 0.95 = 1.75 
d( wing, crane2 ) = isa + isa ! + isa 

= 0,1 + 0.95 + 0.95 = 2.0 
d( cranel, wing) = isa + has part = 0.1 + 0.3 = 0.4 
d( crane2, wing) = isa + ias + isa ! 


=0.1 +0.1 +0.93 = 1.15 
根据 语义 距离 的 计算 公式 ， 我 们 有 : 
IX wing, cranel ) = min ( d( wing, cranel ), d( cranel, wing ) ) 
二 


IX wing, crane2 ) = min d( d( wing, crane2 ), d( crane2, wing ) ) 


= min(2.0, 1.15) = 1.15 
我 们 取 最 小 的 语义 距离 D(wing， crane1) 作 为 优选 的 结果 ， 因 此 ， 短 
语 “crane's wing” 的 意思 应 该 优选 为 “ 智 的 翅膀 ”。 
上 面 讲 的 是 根据 谓词 的 选择 限制 来 排除 多 义 论 元 的 卜 义 。 


当 谓 词 有 歧义 时 ， 我 们 还 可 以 根据 其 论 元 的 语义 来 消除 谓词 的 此 
X. fun, 


Well, there was the time served green-lipped mussels from New 
Zealand.〈 好 ， 有 时 间 来 品 答 Mot PU RAISE. ) 

Which airlines serve Denver? 〈 哪 一 个 航班 到 Denver 去 ? ) 

Which ones serve breakfast?〈 哪 一 个 航班 供应 早餐 ? ) 














前 句 中 的 serve 要 求 某 种 食物 作为 其 PATIENT， 中 名 中 的 serve 要 求 
地 名 或 者 团体 作为 其 PATIENT， 后 句 中 的 serve 要 求 某 种 饭局 作为 其 
PATIENT。 如 果 我 们 确信 mussel，Denver 和 breakfast 都 是 无 歧义 的 ， 那 
么 ， 就 可 以 通过 它们 的 语义 来 消除 谓词 serve 的 攻 义 。 


如 宁 谓 词 和 它 的 论 元 都 有 卜 义 ， 则 选择 的 可 能 性 大 大 增加 。 例 如 ， 


I'm looking for a restaurant that serves vegetarian dishes . 








serve 有 3 个 涵义 ，dish 有 2 个 涵义 ， 则 这 个 句子 应 该 有 3x2 个 涵义 。 
在 这 种 情况 下 ， 要 根据 谓词 论 元 的 语义 类 型 和 论 元 的 选择 限制 共同 地 决 
定 其 正确 的 选择 。 





这 时 ， 谓 词 serve 要 求 的 论 元 有 “食物 ”， “地 名 或 团体 ”，“ 饭 局 ”3 种 
可 能 性 ， 而 论 元 dish 的 语义 类 型 有 “可 食性 ”和 “可 洗 性 ”两 种 可 能 性 ， 由 
于 “食物 ”与 “可 食性 ”是 相 匹 配 的 ， 因 此 作为 选择 的 结果 ， 如 图 2.18 中 有 
双 箭 头 所 示 ，serve 的 含义 是 “供应 ”，dishes 的 含义 是 “食品 >”， 这 个 句子 
的 意思 应 该 是 “我 正在 找 一 个 供应 素食 品 的 饭馆 ”。 











serve 的 论 元 dish 的 选择 限制 











图 2.18 ”涵义 选择 





可 见 ， 基 于 选择 限制 的 词义 排 玉 要求 在 语义 分 析 中 使 用 两 方面 的 知 
iB: 
。 论 元 的 语义 类 型 分 类 


e 论 元 对 于 谓词 的 选择 限制 。 








这 两 方面 的 知识 都 可 以 从 词 网 CWordNet) 中 获取 。 语 义 类 型 分 类 
的 信息 可 以 有 关 词 的 上 下 位 关系 (hypernymy) 获得 ， 选 择 限 制 的 信息 
通过 把 有 关 词 的 SYNSET 与 谓词 的 论 元 相 联系 的 方法 获得 。 如 果 我 们 从 
词 网 上 获得 了 这 两 方面 的 知识 ， 我 们 残 可 以 利用 选择 限制 来 进行 词义 排 
Er. 











然而 。 选 择 限制 是 有 局 限 性 的 ， 主 要 表现 在 : 





e 当选 择 限制 的 一 般 性 太 强 的 时 候 ， 很 难 决定 有 关 词 的 选择 限制 的 
范围 ; 


Mlun, What kind of dishes do you recommend? 


这 里 ， 我 们 难于 决定 dishes 的 选择 限制 是 “可 洗 性 ”还 是 “可 食性 ”。 


e 当 在 否定 句子 中 的 时 候 ， 人 否定 关系 明显 地 违反 了 选择 限制 ， 但 
和 是， 句子 的 语义 却 是 合法 的 。 


例如 ，People realized you can't eat gold for lunch if you're hungry. 
〈 谁 都 知道 ， 饭 了 也 不 能 把 金子 当 饭 吃 。) 


句子 中 的 eat gold 显然 违反 了 eat 的 选择 限制 ， 因 为 gold 不 具有 可 食 
性 。 但 是 ， 由 于 有 否定 词 cant， 这 个 句子 却 是 完全 合法 的 。 








e 当 人 句子 描述 的 事件 是 不 寻 和 的 事件 时 ， 尽 管 违 反 了 选择 限制 ， 句 
子 仍然 是 完全 合法 的 。 


例如 ，In his two championship trials, Mr. Kulkirni ate glass on an 





empty stomach, accompanied only by water and tea. 〈 在 他 的 两 次 冠军 比赛 
中 ， 库 尔 基 尔 尼 先生 空腹 吞食 NOH. TENIS HEUS KERN. ) 








句子 中 glass《〈 玻 璃 ) 是 不 具有 可 食性 的 ， 违 反 了 eat 的 选择 限制 ， 可 
是 ， 这 个 句子 仍然 是 合法 的 ， 因 为 库 尔 基 尔 尼 先 生 是 一 个 特别 的 人 ， 他 
FA AE BTA IDS Fi ASE 





e 当 句 子 中 出 现 比 喻 (metaphor) 或 借 喻 Cmetonymy) 的 时 候 ， 
样 的 比喻 或 借 喻 是 对 选择 限制 的 极 大 挑战 。 


[ey 


fin, If you want to kill the Soviet Union, get it to try to eat 
Afghanistan. (LEAs PKA ASB YT, We!) 


这 时 ， 谓 词 kil 和 eat 的 PATIENT 的 典型 的 选择 限制 都 完全 失效 了 ， 
可 是 ， 这 个 句子 在 语义 上 合法 性 却 是 毋庸 置疑 的 。 





e 利用 优选 和 天 系 进行 词义 排 叔 的 方法 


1987 年 ， 赫 和 尔 斯 特 指出 ， 所 有 这 些 违反 选择 限制 却 在 事实 上 合法 的 
例子 ， 都 将 导致 词义 排 琉 的 失效 。 因 此 ， 他 建议 ， 与 其 把 选择 限制 看 成 
一 种 便 性 的 规定 ， 不 如 把 它 看 成 是 一 种 优选 关系 Cpreference) ， 应 该 
把 “优选 ”的 概念 引入 选择 限制 的 研究 中 。 


早 在 1975 年 ， 威 尔 克 斯 就 提出 优选 语义 学 Cpreference 


semantics) 。 


他 认为 ， 在 词义 排 歧 的 过 程 中 ， 涵 义 的 取舍 不 要 看 成 是 完全 的 接受 
或 完全 的 拒绝 ， 而 应 该 看 成 是 在 各 种 可 能 的 涵义 中 进行 优选 。 当 单词 彼 
此 结合 的 时 候 ， 优 选 程度 最 高 的 那些 涵义 个 确定 为 可 接受 的 涵义 ， 而 优 
选 程度 低 的 涵义 则 被 拒绝 。 





例如 ， 在 句子 


The policeman interrogated the crook. 





中 ，crook 是 一 个 多 义 词 ， 它 的 涵义 可 以 是 “牧羊 杖 *"， 也 可 以 是 “骗子 ”， 
而 动词 interrogated 优 选 主 语 为 human， 优 选 宾语 也 为 hIuman， 表 示 如 
T 


Interrogate (subject: human, object: human) 


当 计 算 机 处 理 这 个 句子 的 时 候 ， 因 为 宾语 的 语义 类 型 以 human 为 优选 ， 
所 以 ，crook 的 涵义 应 该 是 “骗子 ”， 而 不 是 “ 牧 诗 杖 ”。 





威 尔 元 斯 把 词义 排 卜 的 过 程 看 成 是 一 个 语义 的 优先 过程， 显然 更 加 
符合 实际 情况 。 当 句子 中 出 现 比喻 或 借 喻 的 时 候 ， 如 果 使 用 语义 优选 的 
方法 ， 可 能 取得 比较 理想 的 词义 排 歧 结果 。 


与 威 尔 克 斯 的 优选 语义 学 理论 的 思路 相似 ， 雷 斯 尼克 (Resnik) 于 
1997 年 提出 了 “选择 关联 度 ”(selectional association) 的 概念 。 





选择 关联 度 是 在 谓词 与 该 谓词 所 文 配 论 元 的 类 别 之 间 的 关联 强度 的 
一 种 概率 测度 。 雷 斯 尼 殉 把 词 网 WordNet 中 上 下 位 关系 CHypernymy? 
与 标注 语料库 中 的 谓词 一 论 元 关系 结合 起 来 ， 从 而 推算 选择 关联 的 强 
度 。 





雷 斯 尼克 在 经 过 句法 剖析 的 语料库 中 目 动 获取 Verb-Object，Subject- 
Verb，Adjective-noun 等 句法 结构 的 语义 优选 ， 用 来 消除 动词 、 名 词 、 形 
容 词 的 卜 义 。 他 用 选择 关联 上 度 来 进行 词义 消 卜 ， 算 法 选择 在 谓词 与 其 论 
元 的 上 位 词 之 间 上 共有 最 高 选择 关联 度 的 论 元 作为 该 论 元 的 正确 含义 。 











雷 斯 尼 死 这 种 选择 关联 度 方法 的 缺陷 是 ， 它 只 能 用 于 谓词 没有 皮 义 
MMM TCA BOX 
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(parser) 来 自动 获取 句法 关系 的 知识 ， 句 法 剖析 的 错误 往往 会 导致 词 
义 排 到 的 错误 。 而 目前 句法 谢 析 露 的 效果 还 不 理想 ， 因 而 也 就 使 得 这 种 

方法 的 效率 不 高 。 





此 外 ， 我 们 还 可 以 使 用 语义 层级 关系 ， 放 松 对 于 语义 选择 的 限制 来 
解决 比喻 和 借 喻 的 问题 。 例 如 ， 在 句子 


The company agreed the proposal. 





中 ， 如 果 agree 要 求 主语 的 语义 类 型 为 human”， 而 company 的 语义 类 型 
为 “social object*”， 那 么 ， 选 择 限 制 就 要 遭 到 破坏 。 这 时 ， 如 果 我 们 放松 
选择 限制 ， 把 agree 的 主语 的 语义 类 型 由 “human” 扩 大 到 也 包括 “social 








object"”， 便 可 以 确认 这 是 一 个 合格 的 句子 。 


3. 目 立 的 词义 排 收 方法 


前 面 的 方法 都 要 制定 “规则 ”， 是 所 谓 “ 规 则 对 规则 ”(rule-to-rule 
approach) 的 方法 ， 另 外 ， 还 有 目 芯 的 方法 〈stand-alone approach) . Ñ 
芯 的 方法 不 需要 制定 规则 ， 是 一 种 鲁 棒 Crobust) 的 词义 排 玉 方法 。 





这 种 鲁 棒 的 自立 的 词义 排 上 下 方法 主要 依靠 词类 标注 来 工作 ， 力 求 把 
对 于 信息 的 要 求 减低 到 最 低 限 度 ， 从 而 作 到 “上 自 六 ”(stand-alone) , tH 
就 是 让 机 器 自己 学 习 而 获得 信息 。 














这 种 机 器 学 习 的 方法 ， 要 求 对 系统 进行 训练 ， 使 得 系统 能 够 目 行进 
行 词 义 排 芍 ， 而 不 必 依靠 事 移 设 定 的 规则 。 


要 进行 词义 排 卜 的 词 叫做 目标 词 Ctarget word) ， 目 标 词 所 磐 入 的 
XLA, MAE FX Context) 。 输 入 按 下 面 方式 进行 初始 化 的 处 理 : 








。 输入 文本 一 般 应 该 是 经 过 词类 标注 的 ; 

。 上 下 文 可 以 看 成 是 围绕 目标 词 的 长 短 不 一 的 语言 片段 ; 

。 上 下 文中 的 单词 ， 应 该 是 经 过 词法 分 析 的 ， 应 该 把 变形 词 还 原 成 原 
形 词 ; 

e. 文本 最 好 经 过 局 部 句法 分 析 或 者 依存 关系 分 析 ， 能 够 反映 出 题 元 角 
色 关 系 或 者 其 他 语法 关系 。 














经 过 这 样 的 初始 化 处 理 ， 输 入 文本 要 进一步 提炼 为 包含 相关 信息 的 


特征 的 集合 。 主 要 步骤 是 : 


选择 相关 的 语言 学 特征 ; 

根据 学 习 算 法 的 要 求 对 这 些 特征 进行 形式 化 描述 (或 者 编码 ) 。 大 
多 数 的 学 习 系 统 使 用 简单 的 特征 癌 量 (feature vector) ， 这 些 特征 
器 量 采 用 数字 或 者 词类 标记 来 编码 。 





用 来 训练 词义 排 歧 系统 的 语言 学 特征 可 以 粗略 地 分 为 两 类 : 


搭配 特征 Ccollocation feature) ; 


e 共 现 特征 (co-occurrence feature) . 
搭配 特征 对 目标 词 左右 的 上 下 文 进行 编码 ， 要 求 指 出 特定 的 、 能 反 


映 这 些 单词 的 语法 性 质 的 位 置 特征 。 典 型 的 特征 是 单词 、 词 根 形式 、 词 
类 等 。 这 样 的 特征 往往 能 把 目标 词 特定 的 含义 孤立 起 来 以 便 处 理 。 








例如 ， 


An electric guitar and bass player stand off to one side, not really part of 





the scene, just as a sort of nod to gringo expectations perhaps.〈( 电 吉他 和 低 
ka 演 委 者 站 在 一 和 劳 ， 他 并 不 是 站 在 舞台 的 一 部 分 ， 大 概 只 是 为 了 
等 待 外 国 佬 的 到 来 。) 





我 们 取 特 征 词 bass《〈 低 音乐 器 ) 的 左右 两 个 词 以 及 它们 的 词类 标记 
为 特征 同 量 ， 作 为 搭配 特征 表示 如 下 : 


| guitar, NN1, and, CJC, player, NN1, stand, VVB | 


这 样 的 搭配 特征 对 于 相 邻 单词 的 位 置 有 严格 的 要 求 ， 实 现 起 来 比较 
困难 ， 因 此 往往 要 与 共 现 特征 结合 起 来 使 用 。 








共 现 特征 不 考虑 相 邻 单词 的 精确 的 位 置信 息 ， 单 词 本 号 就 可 以 作为 





特征 。 特 征 的 值 就 是 单词 在 于 纸 目 标 词 的 环境 中 出 现 的 次 数 。 目 标 词 的 
环境 一 般 定 义 为 以 目标 词 为 中 心 的 一 个 固定 窗口 ， 要 计算 出 在 这 个 窗口 
中 实 词 的 出 现 频 度 ， 根 据 共 现 词 的 出 现 频 度 ， 判 定 目标 词 的 含义 。 








例如 ， 对 于 目标 词 bass， 我 们 从 语料库 中 选 选 出 它 的 12 个 共 现 词 。 
然后 标 出 它们 在 特定 窗口 中 的 出 现 频 度 。 





这 12 个 共 现 词 是 : fishing, big, sound, player, fly, rod, pound, double, 


runs, playing, guitar, band. 


在 上 面 句子 中 选取 反映 搭配 特征 的 guitar and bass player stand 作为 窗 
口 ， 在 这 个 窗口 中 ， 这 12 个 共 现 词 出 现 的 特征 辣 量 为 (player 和 guitar 的 
出 现 次 数 为 1， 其 他 共 现 词 的 出 现 次 数 都 为 0) : 


[0,0,0,1,0,0,0,0,0,0,1,0] 


根据 这 样 的 特征 向 量 ， 由 于 第 四 个 共 现 词 player 和 第 十 一 个 共 现 记 
guitar 在 特征 向 量 中 的 值 都 是 1， 因 此 可 以 确定 这 个 bass 的 词义 是 “低音 乐 
器 ?。 在 这 12 个 共 现 词 中 ， 反 映 bass 的 不 同 特征 是 混在 一 起 的 ， 因 此 ， 我 
们 有 必要 根据 语 料 统计 的 结果 ， 来 给 这 些 特 征 向 量 赋值 ， 根 据 赋值 进行 
判断 。 





韩 克 期 (P. Hanks) 指出 ， 多 义 词 bank 的 共 现 词 可 以 分 为 如 下 两 组 
(A 组 和 B 组 ) : 


A 组 : money, notes, loan, account, investment, clerk, official, 
robbery, vault, working, in a, First national, of England. 


BZH: river, swim, lake, boat, east, west, south, on top of. 





如 果 bank 的 共 现 词 属于 A 组 ， 则 它 的 涵义 是 “银行 "， 如 果 bank 的 共 


Jie TB WEB. 


TE SERIE T] CHER ASP, AA ERRE T5 AR ik A GK 
使 用 ， 根 据 反 映 共 现 特征 的 共 现 词 在 反映 搭配 特征 的 窗口 中 出 现 的 频 度 
Ans. 


4. 基于 机 右 学 习 的 词义 排 卜 方 法 


Las =>) (machine leaning) 方法 可 以 分 为 有 指导 的 学 习 方法 

(supervised learning approach) 、 半 指导 的 学 习 方 法 (semi-supervised 

learning approach) 和 无 指导 的 学 习 方法 〈unsupervised learning 
approach) ， 下 面 分别 介 绍 。 


e 有 指导 的 学 习 方法 


这 种 方法 依据 词义 标注 的 数据 来 训练 分 类 器 ， 并 获取 相关 参数 ， 进 
而 对 测试 语 料 中 的 词语 进行 排 歧 。 


目前 在 有 指导 的 学 习 方法 排 上 收 中 ， 主 要 的 方法 有 朴素 Bayes 分 类 法 
(naive Bayes ”classifier， 简 称 NB) 和 决策 表 分 类 法 (decision list 
classifiers) 两 种 。 


使 用 朴素 Bayes 分 类 法 时 ， 不 是 去 寻找 某 个 特定 的 特征 ， 而 是 在 综 
合 考虑 多 个 特征 的 基础 上 进行 词义 排 靶 。 这 种 方法 实际 上 是 在 给 定 的 上 
下 文 环 境 下 ， 计 算 一 个 多 义 词 的 各 个 义 项 中 概率 最 大 的 义 项 。 计 算 公式 
如 下 : 


s = argmaxP(s| V) 
$E 
其 中 ，S 是 词义 的 集合 ，s 表 示 S 中 的 每 一 个 可 能 的 义 项 ，V 表 示 输 
入 上 下 文中 的 同 量 (Vector) 。 


根据 Bayes 公 式 把 上 面 的 公式 改写 ， 我 们 可 以 得 到 直接 根据 向 量 的 
计算 公式 ， 


n 
g oum argmaxP( gj [I iX v, | s ) 
Se. j=l 


例如 ， 在 句子 An electric guitar and bass player stand off to one side, no 
really part of the scene, just as a sort of nod to gringo expectations 
perhaps 〈“ 电 吉他 和 低音 乐器 TSE oy. BHEE AER 
部 分 ， 大 概 只 是 为 了 等 待 外 国 佬 的 到 来 ">) 中 ， 我 们 需要 计算 在 bass 左 边 
guitar 的 出 现 概率 和 bass 右 边 的 player 的 出 现 概率 ， 从 而 得 出 bass 的 含义 
为 “低音 乐器 "”， 达 到 排 太 的 目的 。 








19924E, 239] (Gale) 等 使 用 这 个 方法 试验 了 6 个 英语 的 多 义 词 
(duty, drug, land, language, position, sentence) 的 词义 排 靶 ， 正 确 率 达到 
90% 左 右 。 


决策 表 分 类 法 根据 共 现 词 的 等 价 类 的 不 同 制定 决策 表 ， 然 后 利用 这 
个 决策 表 于 输入 向 量 ， 确 定 最 佳 的 词义 。 


Blin, HES ARSE (Yarowsky) 在 1996 年 制定 如 下 的 决策 表 来 确定 
bass 的 词义 : 


mM in] X 


窗口 中 出 现 fish -> bass1 
窗口 中 出 现 striped bass — bass1 
窗口 中 出 现 guitar — bass2 
窗口 中 出 现 bass player $ bass2 
窗口 中 出 现 piano — bass2 
窗口 中 出 现 tenor 一 > bass2 
窗口 中 出 现 sea bass 一 bass] 
窗口 中 出 现 play/V bass bass2 
窗口 中 出 现 river — bass 
窗口 中 出 现 violin 一 > bass2 
窗口 中 出 现 salmon 一 > bassl 
窗口 中 出 现 on bass — bass2 
窗口 中 出 现 bass are > bass1 


其 中 ，bass1 表 示 fish 的 含义 ，bass2 表 示 music 的 含义 。 如 果 检 测 成 
功 ， 束 选择 相应 的 词义 ， 如 果 检 测 失败 ， 那 就 进入 下 一 个 检测 。 这 样 一 
直 检 测 到 决策 表 的 末尾 ， 其 缺 省 值 就 是 最 大 可 能 的 词义 。 


这 个 决策 表 可 用 于 从 bass 的 music 含 义 中 消除 fish 的 含义 。 第 一 项 检 
测 说 明 ， 如 果 在 输入 中 出 现 fsh， 那 么 ， 就 选择 bass1 为 正确 的 答案 。 如 
果 不 是 这 样 ， 那 么 ， 束 检测 下 一 项 一 直到 返回 值 为 Trme， 在 决策 表 末 尾 
的 缺 省 值 的 检测 ， 其 返回 值 为 True。 


决策 表 中 项 目的 排列 可 以 根据 训练 语 料 的 特征 来 决定 。 
1994 年 ， 雅 罗 夫 斯 基 提 出 一 种 方法 来 计算 决策 表 中 的 每 个 特征 值 侦 


对 的 对 数 似 然 比值 Clog-likelihood ratio) ， 根 据 计 算 所 得 的 比值 调整 涵 
义 Sense1 和 涵义 Sense2 在 决策 表 的 顺序 ， 从 而 确定 整个 决策 表 中 特征 值 
的 排列 顺序 。 计 算 公 式 如 下 : 

v, ) 


abs( Log[ - See) f 


其 中 ，v 表 示 Sense 的 特征 癌 量 ，f 表 示 该 Sense 的 绝对 频 度 。 








根据 这 个 公式 来 比较 各 特征 值 偶 对 ， 便 可 以 获得 一 个 排列 最 佳 的 决 
策 表 。1996 年 ， 雅 罗 夫 斯 基 采 用 这 样 的 方法 进行 词义 排 上 收 ， 得 到 了 95% 
的 正确 率 。 








DEA bia AEF AA (MaxEnO 的 排 歧 方法 、 基 于 支持 向 量 
机 Csupport vector machine， 简 称 SVM) WAERDE, ZAGER. 


e 半 指 导 的 学 习 方 法 





有 指导 的 学 习 方 法 的 问题 是 需要 训练 大 量 的 标注 语 料 。 都 思 特 CM. 
A. Hearst) 和 雅 罗 夫 斯 基 分 别 在 1991 年 和 1995 年 提出 “ 自 举 的 方 
法 ”(Bootstrapping Approaches) ， 这 种 方法 又 可 以 翻译 为 “ 目 力 更 生 的 
方法 ”。 这 种 方法 不 需要 训练 大 量 的 语 料 ， 而 只 需要 依靠 数量 相对 少 的 
实例 ， 每 一 个 词 目 的 每 一 个 义 项 都 依靠 少量 的 标记 好 的 实例 来 判别 。 





以 这 些 实例 作为 种 子 〈seed) ， 采 用 有 指导 的 学 习 方 法 来 训练 语 料 
从 而 得 到 初始 的 分 类 。 然 后 ， 利 用 这 些 初始 的 分 类 ， 从 未 训练 的 语 料 中 
抽取 出 大 量 的 训练 语 料 ， 反 复 进行 这 个 过 程 一 直到 得 到 较 满意 的 精确 度 
TUE nis EJ AE 


这 个 方法 的 关键 是 从 较 小 的 种 子 集合 出 用， 创造 出 大 量 的 训练 语 
料 。 然 后 在 利用 这 些 得 出 的 大 量 的 训练 语 料 来 创造 出 新 的 、 更 加 精确 的 
分 类 。 每 重复 一 次 这 样 的 过 程 ， 所 得 到 的 训练 语 料 越 来 越 大 。 而 未 标注 
的 语 料 越 来 越 少 。 所 以 这 是 一 种 半 指 导 的 学 习 方 法 。 








目 举 的 词义 排 卜 法 的 初始 种 子 可 以 使 用 不 同 的 方法 来 产生 。 





1991 年 ， 祁 思 特 用 简单 的 手工 标记 方法 从 初始 语 料 中 获得 一 个 小 的 
实例 集合 。 他 的 方法 共有 如 下 3 个 优点 : 





种 子 实例 可 靠 ， 保 证 了 机 器 学 习 有 正确 的 立足 点 ; 

分 析 程 序 选 出 的 实例 不 仅 是 正确 的 ， 而 且 可 以 作为 每 个 义 项 的 意义 
原型 。 

训练 简单 可 行 。 


1995 年 ， 雅 罗 夫 斯 基 提 出 “一 个 搭配 一 个 义 项 ”(One Sense per 
Collocation〉 的 原则 ， 效 果 民 好 。 他 的 方法 是 为 每 一 个 义 项 选择 一 个 合 
理 的 标示 词 (indicator) 作 为 种 子 。 例 如 ， 选 择 fish 作 为 识别 bass1 这 个 义 
项 的 种 子 标示 词 ， 选 择 play 作 为 识别 bass2 这 个 义 项 的 种 子 标示 词 。 


下 面 是 例子 : 
play—bass2 


We need more good teachers—right now, there are only a half a dozen 
who can play the free bass with ease.( 我 们 需要 更 多 好 老师 ， 目 前 我 们 这 
儿 有 五 六 个 能 够 熟练 地 演奏 低音 乐器 的 。) 


An electric guitar and bass play er stand off to one side, not really part 


of the scene, just as a sort of nod to gringo expectation perhaps.〈 电 吉它 和 


低 首 乐 颖 ”演奏 者 站 在 一 旁 ， 他 并 不 是 站 在 舞台 的 一 部 分 ， 大 概 只 是 为 
了 等 每 外 国 佬 的 到 来 。) 





fish—bass1 


The researchers said the worms spend part of their life cycle in such fish 
as Pacific salmon and striped bass and pacific rockfish or snapper. (研究 人 
员 说 ， 晴 虫 生命 中 一 部 分 时 间 生 活 在 太平 洋 大 马 哈 鱼 和 有 斑纹 的 鲈鱼 
以 及 太平 洋 的 岩 鱼 或 者 甲鱼 体内 。 ) 





Saturday morning I arise at 8:30 and click on“America's best known fish 
erman,"giving advice on catching bass in cold weather from the seat of a bass 
boat in Louisiana. (星期 六 早晨 我 8:30 起 床 ， 询 问 “ 美 国 最 有 名 的 渔 人 ”， 
怎样 在 大 冷 天 从 Louisianna 的 鲈鱼 船 的 坐位 上 捕捉 鲈鱼 。) 


在 图 2.19 中 所 示 的 是 使 用 “fish” 和 “play” 这 两 个 种 子 标示 词 ， 在 从 
《华尔街 日 报 》 (The Wall Street Journal ， 简 称 WSJ) 抽出 的 bass 例 句 
库 中 查找 而 得 到 的 部 分 结 





Klucevsek plays Giulietti or Titano piano accordions with the more flexible, more 
difficult free bass rather than the traditional Stradella bass with its preset chords 


designed mainly for accompaniment. 


We need more good teachers -right now, there are only a half a dozen who can play 


the free bass with ease. 


An electric guitar and bass player stand off to one side, not really part of the scene, 


just as a sort of nod to gringo expectations perhaps. 


When the New Jersey Jazz Society, in a fund-raiser for the American Jazz Hall of 
Fame, honors this historic night next Saturday, Harry Goodman, Mr. Goodman's 
brother and bass player at the original concert, will be in the audience with other 


family members. 





The researchers said the worms spend part of their life cycle in such fish as Pacific 


salmon and striped bass and Pacific rockfish or snapper. 


Associates describe Mr. Whitacre as a quiet, disciplined and assertive manager 


whose favorite form of escape is bass fishing. 
And it all started when fishermen decided the striped bass in Lake Mead were too 
skinny. 


Though still a far cry from the lake's record 52-pound bass of a decade ago, "you 
could fillet these fish again, and that made people very, very happy, " Mr. Paulson 


says. 


Saturday morning I arise at 8: 30 and click on " America's best-known fisherman, " 


giving advice on catching bass in cold weather from the seat of a bass boat in 


Louisiana. 


图 2.19 ”利用 play 和 fish 与 bass 的 相关 性 从 WSJ 抽 取 的 bass 例 句 ， 上 半 部 的 句子 中 bass 的 含义 为 “ 低 
音乐 器 ?”， 下 半 部 句子 中 bass 的 含义 为 “鲈鱼 ”。 























雅 罗 夫 斯 基 选 择 种 子 的 途径 有 两 条 : 一 是 机 需 可 读 词 典 ， 二 是 利用 
统计 方法 根据 搭配 关系 来 选择 。 他 对 12 个 多 义 词 的 皮 义 消解 正确 率 为 
96.596. 


显而易见 ， 这 种 自 举 的 方法 是 一 种 半 指 导 的 学 习 方 法 Csemi- 


supervised Learning Approaches) 。 


e 无 指导 的 学 习 方 法 


无 指导 的 学 习 方 法 Cunsupervised learning approaches) 避免 使 用 通 
过 训练 得 出 义 项 标注 (sense tagging) 的 语 料 ， 只 使 用 无 标记 的 语 料 作 
为 输入 ， 这 些 语 料 根 据 它们 的 相似 上 度 进 行 类 聚 。 这 样 的 类 聚 可 以 作为 成 
分 的 特征 回 量 的 代表 。 根 据 相 似 度 得 出 的 类 聚 再 经 过 人 工 的 词义 标注 
后 ， 就 可 以 用 来 给 没有 特征 编码 的 实例 进行 分 类 。 显 而 易 见 ， 这 是 一 种 
[ri et SRR Ty IA 





例如 ， 英 语 多 义 词 bank 的 义 项 分 别 为 bank1 和 bank2， 在 没有 经 过 训 
练 的 语 料 中 ， 在 第 一 个 上 下 文中 出 现 了 money， 在 第 二 个 上 下 文中 出 现 
了 loan， 在 第 三 个 上 下 文中 出 现 了 water， 它 们 在 不 同上 下 文中 与 其 他 词 
的 共 现 次 数 也 束 是 它们 的 关联 向 量 ， 如 下 表 所 示 : 


bank building loan money mortgage river water 
loan 150 20 70 100 50 10 40 
money 600 500 100 400 50 30 70 
water 15 400 40 70 1 400 500 


其 中 ，mortgage 的 含义 是 “抵押 ?”。 


从 共 现 次 数 的 分 布 〈 关 联 同 量 ) 可 以 看 出 这 三 个 词 的 相似 度 的 接近 
程度 : water 与 l0an 或 者 money 的 相似 度 远 远 小 于 money 与 loan 的 相似 度 。 
也 就 是 说 ，money 和 ]oan 的 关联 同 量 大 于 money 与 water 的 关联 同 量 ， 世 
大 于 loan 与 water 的 关联 同 量 。 这 样 ， 我 们 束 可 以 把 money 与 loan 类 聚 在 
一 起 ， 这 个 类 束 是 bank1 的 标示 ，bank1 的 涵义 显然 应 该 是 “银行 ?把 
water 单 独 算 为 一 个 类 聚 ， 这 个 类 聚 bank2 的 标示 ，bank2 的 涵义 显然 应 议 


是 “ 悍 边 ” 2 


经 党 采用 的 方法 是 凝聚 法 Cagglomerative clustering) 。N 个 训练 实 
例 中 的 每 一 个 实例 都 被 指派 给 一 个 类 聚 ， 然 后 用 目 底 向 上 的 方式 陆续 地 
把 两 个 最 相似 的 类 聚 结合 成 一 个 新 的 类 聚 ， 直 到 达到 预期 的 指标 为 止 。 


由 于 无 指导 的 学 习 方 法 不 使 用 人 工 标注 的 数据 ， 它 存在 如 下 的 不 


AE: 


。 在 训练 语 料 中 ， 无 法 知道 什么 是 正确 的 义 项 。 


。 所 得 到 的 类 聚 往往 与 训练 实例 的 义 项 在 性 质 上 差别 很 大 ， 各 不 相 


Wo 


。 类 聚 的 数量 几乎 总 是 


Mo 
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RTI (Schütze) 在 1992 年 和 1998 年 ， 先 后 使 用 无 指导 的 学 习 方法 来 
进行 多 义 词 的 下 义 消解 ， 其 结果 与 有 指导 的 学 习 方法 和 目 举 的 半 指 导 的 
学 习 方 法 很 接近 ， 达 到 了 90% 的 正确 率 。 不 过 ， 这 种 方法 所 试验 的 多 义 
词 的 数量 规模 都 很 小 。 


舒 彻 在 1992 年 还 使 用 向 
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聚 的 词义 排 琉 与 只 选择 最 常见 义 项 的 歧义 消解 结果 。 从 而 证 明了 回 量 类 
聚 的 效果 比 之 于 早期 机 喜 翻 译 系统 使 用 的 选择 最 间 见 涵义 的 方法 的 效果 


好 得 多 。 


单词 


tank/s 
plant/s 
interest/s 
capital/s 
suit/s 
motion/s 
ruling 
vessel/s 
space 


train/s 


义 项 数目 


可 量 类 聚 方法 的 
正确 率 


95 
92 
93 
95 
95 
92 
90 
92 
90 
89 


选择 最 常见 涵义 
方法 的 正确 率 
80 
66 
68 


5. 基于 词典 的 词义 排 监 方法 


上 述 方法 的 最 大 问题 是 语 料 的 规模 问题 。 许 多 词义 排 夏 试验 的 规模 
只 涉及 2 到 12 个 词 ， 最 大 规模 的 词义 排 皮 试验 也 只 涉及 121 个 名 词 和 70 个 
动词 (Ng, Lee, 1996) 。 因 此 ， 学 者 们 想到 了 使 用 机 器 可 读 词典 
(machine readable dictionary〉， 米 用 基于 词典 的 词义 排 卜 方法 
(Dictionary-Based Approaches) 。 这 时 ， 机 器 可 读 词 典 可 以 给 词义 排 卜 
提供 义 项 以 及 相应 义 项 的 定义 上 下 文 。 








19864, Ww (M. Lesk) 首先 使 用 词典 中 的 定义 来 进行 词义 排 
歧 。 机 器 可 读 词 典 中 词典 条 目的 定义 实际 上 就 是 一 种 既 存 的 知识 源 ， 妆 
判断 两 个 单词 A 和 B 之 间 的 杀 和 程度 时 ， 可 以 比较 这 两 个 单词 A 和 B 在 机 
器 可 读 词典 的 定义 中 同时 出 现 的 词语 的 情况 ， 如 果 在 A 和 B 两 个 单词 的 
定义 中 都 出 现 共同 的 词语 ， 便 可 推断 它们 之 间 的 亲 和 和 程度 较 大 ， 从 而 据 
此 来 进行 优选 。 他 把 多 义 词 的 各 个 义 项 的 定义 进行 比较 ， 选 择 具有 最 大 
履 盖 上 下 文 的 义 项 为 正确 的 义 项 。 例 如 ， 





在 词组 pine cone MAER) 中 ，cone 是 多 义 词 ， 我 们 把 词典 中 pine 的 
定义 与 cone 的 定义 进行 比较 如 下 : 


pine 


1. kinds of evergreen tree with needle-shaped leaves 〈 一 种 具有 针 状 树叶 
HA Fs SRY ) 
2. waste away through sorrow or illness (A ARR ae BoA Tf HE) 





cone 


1. solid body which narrows to a point C [zi] #E {4 ) 

2. something of this shape whether solid or hollow〔 硬 的 东西 或 者 空 的 
东西 ) 

3. fruit of certain evergreen tree s〈 某 些 常 绿 树 的 果实 ) 


我 们 选择 cone ”3 作为 pine ”cone 中 多 义 词 cone 的 正确 义 项 ， 因 为 在 
cone 3 的 定义 中 ，evergreen 和 tree 两 个 词 与 pine 1 定义 中 的 词 evergreen 和 
tree 相 重合 。 


KEA (BE Em) (Pride and Prejudice ) 和 AP newswire 的 
文章 中 选取 部 分 语 料 进行 试验 ， 正 确 率 达 50 一 70%。 


又 如 ， 在 英语 中 ，pen 是 一 个 多 义 词 ， 可 以 理解 为 “ 笔 >， 也 可 以 理 
解 为 “动物 的 围栏 >， 如 果 在 一 个 句子 中 既 有 pen， 又 有 sheep， 而 在 机 器 
可 读 词 典 的 pen 的 定义 中 有 “an enclosure in which domestic animals are 
kept”， 在 sheep 的 定义 中 有 “There are many breeds of domestic sheep”， 在 
这 两 个 定义 中 都 存在 共同 出 现 的 单词 domestic， 从 而 可 以 判断 ， 在 这 个 
句子 中 ，pen 的 含义 应 该 是 “动物 的 围栏 ?>， 而 不 是 “ 笔 >， 从 而 消解 了 攻 
Mg 





JÉXk CK. Jensen) MWR (J-L. Binot) 利用 联机 词典 中 的 单词 的 
定义 来 消解 英语 介词 的 功能 歧义 。 


例如 ， 英 语 的 with 这 个 介词 ， 其 功能 可 以 表示 INSTRUMENT ( 工 
R) ， 又 可 以 表示 PART-OF (部 分 一 全 体 ) 关系 ， 这 就 出 现 了 功能 上 的 
歧义 (case ambiguity) 。 在 英语 句子 “TI ate a fish with a fork” 中 ， 
fork (叉子) 的 定义 为 “an instrument for eating food”， 其 中 的 instrument 
与 with 的 功能 INSTRUMENT (LH) 相同 ， 故 可 判断 with 在 这 个 句子 中 


的 功能 应 该 是 INSTRUMENT (TER) ， 故 此 名 的 含义 应 该 为 “我 用 叉子 
吃 鱼 ”。 


在 英语 句子 “I ate a fish with bones”, bone Hlas A] icis] Bt rp BE 
义 是 “a part of animal”， 在 fish 的 定义 中 ， 有 “a kind of animal", 3X with 
的 功能 PART-OF (部 分 一 全 体 ) 关系 相同 ， 故 可 判断 with 在 这 个 句子 中 
的 功能 是 PART-OF (部 分 一 全 体 ) 关系 ， 这 样 ， 这 个 句子 的 含义 应 该 
是 “我 吃 融 骨 的 鱼 ”。 


这 个 方法 的 主要 困难 是 词典 中 的 定义 往往 太 短 ， 不 足以 为 词义 排 政 
提供 足够 的 上 下 文 材料 。 例 如 ， 在 American Heritage Dictionary 中 ， 
bank (4847) 的 定义 里 没有 deposit〈 存 款 ) 这 个 词 ， 在 deposit (存款 ) 
的 定义 中 ， 没 有 bank《〈 银 行 ) 这 个 词 ， 而 这 两 个 词 有 很 密切 的 联系 。 





现在 一 些 词典 中 有 主题 分 类 代码 Csubject codes) ， 似 乎 可 以 弥补 
这 方面 的 缺陷 ， 因 为 bank 和 deposit 都 可 以 划 为 EC (Economics) 这 个 主 
题 。1991 年 ， 古 特 里 《Guthrie) 报告 ， 他 使 用 了 《上 关 文 当代 瑞 语 词典 》 
(Longman Dictionary of Contemporary English ， 简 称 LDOCE,1978) 的 
主题 代码 来 消解 于 义 ， 把 正确 率 由 47% 提 高 到 729%6。 


国际 计算 语言 学 会 CAssociation of Computational Linguistics， 人 简称 
ACL) 的 词汇 特别 兴趣 小 组 (the Special Interest Group on the Lexicon of 
the — ACL， 简 称 ACL-SIGLEX) 发 起 Senseval 国 际 词义 排 歧 比赛 ， 作 为 
AcCL 的 一 个 研讨 会 《workshop) 举行 。 第 一 届 在 1998 年 ， 第 二 届 在 2001 
年 ， 第 三 届 在 2004 年 ， 第 四 届 在 2007 年 都 进行 的 Senseval 评 测 。 从 2007 
年 第 四 届 开 始 ，Senseval 改 名 为 SemEval (Semantic Evaluation) > K Y 
词义 排 琉 之 外 ， 还 包括 语义 关系 分 类 、 转 喻 消解 、 词 语 蔡 换 、 文 本 情感 
分 析 、 时 间 关 系 识 别 、 网 络 人 名 检索 等 方面 的 评测 。 这 些 评测 和 比赛 ， 


推动 了 词义 排 皮 研究 的 发 展 。 


40 多 年 来 ， 上 自然 语言 处 理 各 个 领域 的 研究 在 词义 排 皮 方面 虽然 取得 
了 很 大 的 成 绩 ， 但 是 ， 学 者 们 的 各 种 方法 似乎 都 很 难 判定 巴 希 勒 在 1959 
年 提出 的 在 “the box was in the pen” 中 pen 的 词义 应 该 是 “游戏 的 围栏 ”>。 可 
见 ， 词 义 排 下 确实 是 非常 困难 的 问题 。 要 真正 解决 词义 排 琉 问题， 还 需 
要 我 们 做 出 不 懈 的 努力 。 





过 去 的 成 果 使 我 们 看 到 了 解决 这 个 问题 的 一 线 曙 光 ， 尽 管 这 一 线 暑 
光 还 很 微弱 ， 但 它 毕 葛 是 黎明 前 的 电光， 还 是 很 或 舞 人 心 的 ， 因 为 它 预 
示 了 自然 语言 处 理事 业 光辉 的 未 来 。 
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第 三 革 ”形态 日 动 处 理 


形态 自动 处 理 就 是 利用 计算 机 对 ais 言 的 词 的 形态 
(Morphology) 进行 分 析 ， 判 定 词 的 结构 、 类 别 和 性 质 。 


a ARRERA SUM 
语言 和 屈折 型 语言 的 形态 分 析 、 汉 语 书 面 文本 的 自动 切 词 、 文 本 的 自动 
标注 等 问题 ， 并 介 cu cua d. is 
夫 模型 的 标注 算法 和 基于 转换 的 标注 算法 。 











Poke 
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一 他 有限 状态 转移 网 络 


一 般 地 说 ， 形 态 目 动 处 理 可 以 分 为 四 个 步 又 : 


步骤 一 : 词 例 还 原 (tokenization ; 





步骤 二 : 词 目 还 原 (lemmatization ; 
ER: 词性 标注 CPOS-tagging) ; 


步骤 四 : 词性 排 靶 CPOS-Disambiguation) 。 





“ 词 例 ”(token)〉 是 文本 中 独立 的 词汇 单元 。 所 谓 “ 词 例 还 原 *”， 就 是 


目 动 地 把 句子 中 的 单词 作为 独立 的 词 例 切 分 出 来 。 英 语文 本 中 的 单词 一 
般 是 界限 分 明 的 ， 单 词 与 单词 之 间 存 在 空白 ， 单 词 的 切 分 不 像 汉语 书面 
文本 那样 困难 。 但 是 ， 下 列 情况 仍 需 要 进行 切 分 ， 把 独立 的 “ 词 例 ? 找 出 


来 : 


如 ， 


算 一 














e 缩写 : 
a. 缩写 “字母 + 圆 点 + 字母 + 圆 点 ” 算 一 个 词 例 : 例 


U.S.”, “ie”, “UK? #8 A — mpl. 








b. 缩写 “字母 串 + 圆 点 ” 算 一 个 词 例 : 例 
“Mr.”, “Mrs.”, “Eds.”, “Prof.”, “Dr.”, “Co.”, “Jan.”, “A.”, "b 
个 词 例 。 


e 连续 的 数字 : fü. “123,456.78” 是 一 个 独立 的 词 例 。“90.7%” 带 


百 分 符 号 ， 也 应 该 算 一 个 独立 的 词 例 。 分 数 “3/8” 算 一 个 独立 的 词 例 。 日 
期 “15/04/1939” 也 算 一 个 独立 的 词 例 。 





e 含有 非 字 母 符 号 的 缩写 算 一 个 词 例 : 例 
如 ，“AT&T”，“Micro$oft” 都 算 一 个 词 例 。 


e 带 连 字符 的 词 串 算 一 个 词 例 : 例如 , “three-year-old”, “one- 
third”，“so-called” 都 算 一 个 词 例 。 


e 禹 空白 的 某 些 习 用 符号 串 算 一 个 词 例 : 例如 ，“and so on”, “ad 
hoc” 都 算 一 个 词 例 。 








e 市 省 略 符 号 C 的 符号 串 ， 要 还 原 成 不 同 的 词 例 : 例如 ， 


一 Let's 还 原 成 let + us 

— I'm 还 原 成 I + am 

一 {it, that, this, there, what, where}'s 还 原 成 {~} + is 
一 He's 还 原 成 (He +is) 或 者 (He + has) 








碳 语 句子 的 词 例 还 原 有 一 定 难度 的 ， 因 为 句子 的 边界 不 总 是 用 小 圆 
点 来 标识 ， 有 时 也 可 以 用 如 像 冒 号 这 样 的 标点 符号 来 标识 。 当 以 一 个 缩 
写 词 来 结束 句子 的 时 候 ， 还 会 出 现 一 个 附 帝 的 问题 ， 这 时 ， 缩 写 词 结尾 
处 的 小 圆 点 会 起 双重 的 作用 。 例 如 ， 在 句子 “The group included Dr. J. M. 
Freeman and T. Boone Pickens Jr”, “Jr.” 最 后 的 小 圆 点 ， 既 可 以 表示 
Junior 的 缩写 〈T. Boone Pickens Jr. 表 示 “ 小 T. Boone Pickens") ， 又 可 以 
表示 句 末 的 句号 。 这 个 小 圆 点 产生 了 牙 义 。 











英语 句子 的 词 例 还 原 的 一 个 关键 部 分 就 是 小 圆 点 的 排 琉 问题。 大 多 
数 英 语句 子 词 例 还 原 的 算法 都 比 确定 性 算法 (deterministic algorithm) 


要 更 加 复杂 一 些 ， 特 别 是 这 些 算法 都 是 通过 机 器 学 习 (machine 
learning) 的 方法 来 训练 ， 而 不 是 用 手工 建立 的 。 在 进行 这 样 的 训练 

时 ， 我 们 首先 要 手工 标注 市 有 人 句子 边界 的 一 个 训练 集 ， 然 后 使 用 任何 一 
种 有 指导 的 机 器 学 习 方 法 (supervised machine learning) 训练 一 个 分 类 
f& (classifier) 来 判定 并 标注 句子 的 边界 。 


更 加 有 具体 地 说 ， 在 开始 的 时 候 ， 我 们 可 以 把 输入 文本 还 原 成 彼此 之 
ASAIN, AJR, wea Ss!’ 句号 “.”、 问 
号 “?2 三 个 符号 中 的 任何 一 个 符号 〈 也 可 能 包含 冒号 "“: ”) 的 词 例 作为 
句子 的 结尾 。 在 手工 标注 了 一 个 包含 这 样 的 词 例 的 语料库 之 后 ， 我 们 就 
训练 一 个 分 类 器 ， 对 于 这 些 词 例 内 的 潜在 句子 边界 字符 ， 进 行 二 元 判 
定 ， 判 定 某 个 词 例 是 EOS (end-of-sentence， 人 句子 结尾 ) ， 还 是 not- 
EOS《〈 非 句子 结尾 ) 。 

















词 目 还 原 〈lemmatization) 就 是 将 文本 中 的 变形 词 还 原 为 原形 词 ， 
以 便 碍 找 机 器 词典 ， 可 以 采用 有 限 状 态 转移 网 络 来 进行 。 





词性 标注 CPOS-tagging) 就 是 给 文本 中 的 单词 标 上 正确 的 词类 。 





ie) MEEK CPOS-Disambiguation) 就 是 消除 兼 类 词 的 不 同 词类 标 
记 ， 使 每 一 个 单词 只 有 一 个 词类 标记 。 





汉语 书面 文本 中 ， 单 词 与 单词 之 间 没 有 界限 ， 词 例 还 原 的 主要 任务 


Mæ HIE] Cautomatic segmentation) 。 





这 些 工 作 是 目 动 句法 分 析 和 目 动 语义 分 析 的 基础 。 





近年 来 ， 学 者 们 开始 研究 大 规模 真实 文本 的 目 动 处 理 ， 目 然 语 言 的 
语料库 中 单词 的 目 动词 性 标注 也 成 为 自动 形态 分 析 的 重要 内 容 。 











自然 语言 的 自动 形态 分 析 (Automatic Morphological Analysis， 或 者 
叫做 “自动 形态 分 析 ”) ， 目 前 主要 采用 有 限 状 态 转移 网 络 来 进行 。 本 节 
介绍 有 限 状态 转移 网 络 的 基本 原理 和 局 限 性 。 








1. 有 限 状态 转移 网 络 的 基本 原理 


一 个 有 限 状态 转移 网 络 (Finite State Transition Network， 简 称 
FSTN) 可 由 Q, V,T 三 部 分 组 成 : 


FSTN = (Q, V, T) 
其 中 ， 
Q 表 示 状 态 的 有 限 的 非 空 集合 
Q= {qo, qd; .…, qn} 


do , qı LEES Qn 表示 不 同 的 状态 ; 








V 表 示 语 言 符号 的 有 限 的 非 空 集合 
V={a,,a> «..., a, } 
al , a2 ，.. an 表示 不 同 的 语素 或 标点 符号 


T 表 示 转 移 函 数 ， 它 要 反映 出 当 有 限 状 态 网 络 在 Q 中 的 某 一 状态 qi 
扫描 到 V 中 的 某 个 特定 的 词 或 词 级 a 时 ， 这 个 有 限 状 态 转移 网 络 将 转移 


到 Q 中 的 什么 状态 。Q 中 的 状态 有 两 个 是 比较 特殊 的 : 一 个 是 初始 状 
态 ， 记 为 qo ， 一 个 是 终极 状态 ， 记 为 df WAH, qo EQ, qf © Qo 


例如 ， 我 们 可 以 这 样 来 定义 一 个 有 限 状 态 转移 网 络 : 


FSTN = (Q, V, T) 
Q= {gqo, q1; q2, qr} 


其 中 ，qo 是 初始 状态 ，df 是 终极 状态 。 


V-(N B, !} 





Job, di, EAR, "1 * 是 标点 符号 ， 
工 : 

了 Qo } = {qi } 

Tis. qı } = {qo } 


T{AS, dy } = {qi } 
Tí! > qo} = {qf}. 





这 个 有 限 状 态 转移 网 络 可 表示 如 下 : 





图 3.1 有 限 状 态 转 移 网 络 








JUPE DAS BTR AS EZ n] DAE A”, "ARGRASGRI CU, "ORGAN 
BANE! ”.………. 这 样 的 表示 祝贺 的 符号 串 。 

从 初始 状态 qo 到 状态 qi ， 产 生出 语素 “ 蒜 ”， 从 状态 qi SIUS, ， 
PERRAS, MRS 到 终极 状态 qt ,产生 出 标点 符号 “! ”， 这 样 ， 
便 可 生成 “恭喜 ! ”这 个 符号 串 。 在 状态 qy ， 网 络 面临 两 种 选择 ， 如 宁 状 
态 qo 转移 到 gf ， 则 产生 出 标点 符号 “! ”， 网 络 也 同时 进入 终极 状态 ， 生 
成 结束 ， 生 成 的 符号 是 “恭喜 ! ”; WRK ASG, 转移 到 qt ， 则 产生 出 语 
BIS”, TOPE, PAIN aS, 再 转移 到 状态 qg, PERRA”, 
然后 再 从 状态 q 转移 到 终极 状态 qt ， 产 生出 标点 符号 “! ”， 生 成 符号 
PARRE!” 如 果 在 状态 q, ， 网 络 不 转移 到 状态 df ， 而 再 次 转移 到 
状态 qt ， 则 又 可 以 从 状态 q! 转移 到 状态 qg。， 产 生出 语素 “ 豆 ”， 册 从 状 
Sq 转移 到 终极 状态 qt ， 并 产生 出 标 反 符 写 “! ”， 从 而 生成 符号 串 “ 藉 


Eadja» 
qe AN qe AN x | o 














有 限 状 态 转 移 网 络 除了 进行 符号 串 的 生成 之 外 ， 还 可 以 识别 符号 
串 。 这 时 ， 我 们 从 初始 状态 qo 开始 ， 顺 着 网 络 中 稍 头 所 指 的 方向 ， 把 网 
络 中 弧 上 标注 的 语素 或 标点 符号 逐一 与 待 识别 符号 串 的 语素 或 标点 符号 
相 匹 配 ， 如 果 待 识别 的 符 亏 串 扫 描 完 毕 ， 网 络 进入 终极 状态 ， 那 么 ， 这 
个 符号 串 就 被 该 网 络 接收 了 。 例 如 ， 如 果 有 符号 串 “ 恭 喜 ! ”， 我 们 从 初 
始 状 态 qo 开始， 从 状态 qo 到 状态 qi ， 弧 上 的 语系 “ 茶 " 与 符号 串 的 第 一 


个 符号 “ 茶 ? 相 匹配 ， 从 状态 qi; Fla » MERER “eS APS FB A 
符号 “ 喜 ” 相 匹配 ， 从 状态 q> 到 终极 状态 qr > TENS! ”与 符号 
串 的 最 后 一 个 符号 “! ” 相 匹 配 ， 这 时 ， 符 号 串 “ 恭 喜 ! ”扫描 完毕 ， 网 络 











也 正好 进入 终极 状态 ， 因 此 ， 符 号 串 “ 茶 喜 ! ”可 被 这 个 有 限 状 态 网 络 识 
别 。 同 理 ， 这 个 有 限 状 态 网 络 还 可 识别 符号 串 “ 蒜 喜 茶 豆 ! CU. “恭喜 茶 


Mme | ” «Fk RFE 共 吉 1 09 Ate Age 
EATS ELL”, “ON ELAS BE IL. RE] "SESE,. 








由 此 可 见 ， 有 限 状态 转移 网 络 既 可 以 生成 语言 中 的 符号 串 ， 叉 可 以 
识别 语言 中 的 符号 串 ， 它 兼 具 生成 与 识别 的 双重 功能 。 





我 们 还 可 以 提出 如 图 3.2 中 的 有 限 状态 转移 网 络 来 生成 与 识别 如 
GOREN”, WEDE! ”, UREASEANEICU., “SEARS... aE 


喜 ! ”这 样 的 符号 串 。 








图 3.2” 非 确定 的 有 限 状 态 转移 网 络 


这 个 有 限 状 态 转移 网 络 的 转移 函数 T 为 : 


T{ 茶 ，qo } = {q, } 
T, q1) = {do} 
T q1) = {qo} 
T{! ，q}={df} 


如 果 把 图 3.2 中 的 有 限 状 态 转移 网 络 与 图 3.1 中 的 有 限 状 态 转 移 网 络 
相 比 较 ， 我 们 不 难看 出 ， 它 们 的 状态 集合 Q 和 语言 符号 集合 V 都 是 完全 





相同 的 ， 只 有 转移 函数 T 不 完全 相同 。 在 图 3.2 中 的 状态 qi 时， 为 了 生成 
或 识别 语素 “ 喜 ”， 存 在 着 两 种 转移 的 可 能 性 ， 一 种 可 能 性 是 从 状态 qi 转 
移 到 状态 qg,，， 男 一 种 可 能 性 是 从 状态 qi 转移 到 状态 qo。; 而 在 图 3.1 中 ， 
为 了 生成 或 识别 同样 的 语言 符号 (语素 或 标点 符号 ) ， 从 一 个 状态 转移 
到 另 一 个 状态 只 有 一 种 确定 的 可 能 性 。 我 们 把 图 3.1 中 的 有 限 状 态 转 移 
网 络 叫 做 “确定 性 有 限 状 态 转移 网 络 ”(deterministic FSTN)〉， 把 图 3.2 中 
的 有 限 状 态 转移 网 络 叫做 * 非 确定 性 有 限 状 态 转移 网 络 ”(Cnon- 
deterministic FSTN ) 。 











在 有 限 状 态 转移 网 络 中 ， 还 可 以 允许 出 现 * 空 弧 ”(〈 记 为 #) ， 也 就 
古 没 有 标记 任何 语言 符号 的 弧 。 妆 从 一 个 状态 转移 到 为 一 个 状态 的 过 程 
中 过 到 这 样 的 空 着 时 ， 网 络 将 跳 过 这 样 的 空 狐 ， 而 不 生成 或 识别 任何 的 
语言 符号 。 空 弧 是 造成 非 确定 性 有 限 状态 转移 网 络 的 一 个 重要 因 系 ， 因 
为 当 网 络 在 某 一 个 状态 之 后 遇 到 空 弧 时 ， 它 可 以 跳 过 空 弧 而 转移 到 另 一 
个 状态 ， 不 一 定 非 得 转移 到 它 原 来 预定 要 转移 到 的 那个 状态 ， 所 以 ， 带 
有 空 弧 的 有 限 状 态 转 移 网 络 必定 是 非 确定 性 的 。 














图 3.3 给 出 了 一 个 生成 或 识别 “ 恭 乾 ! n, “ARES”, SENS 
WEL”, “恭喜 恭喜 .…… 恭 喜 ! ?等 符号 串 的 带 空 弧 的 有 限 状 态 转移 网 
络 。 











H 
图 3.3” 带 空 弧 的 有 限 状 态 转移 网 络 


这 个 有 限 状 态 转移 网 络 的 转移 函数 T 为 : 


T{ 恭 ,qdo}= {qi } 
T{ 豆 ，qd1} = {q> } 
Ti#, Got = {qo} 
Ti! > qo} = {qr} 


图 3.3 中 的 有 限 状 态 转 移 网 络 图 与 图 3.1、 图 3.2 中 的 有 限 状 态 转 移 网 
络 的 状态 集合 Q 和 语言 符号 集合 V 都 是 完全 相同 的 ， 只 有 转移 函数 IT 不 完 
全 相同 ， 在 图 3.3 中 的 状态 qy 时 ， 网 络 不 一 定 立 即 转移 到 最 后 状态 qf ， 
而 可 以 通过 空 弧 〈#) 跳 到 初始 状态 qo 。 








在 有 限 状 态 转移 网 络 中 ， 语 言 符 号 不 仅仅 只 是 使 用 单个 的 符号 ， 也 
可 以 使 用 由 奋 干 个 字符 组 成 的 复合 符 扎 。 例 如 ， 我 们 可 以 把 两 个 符 
号 “ 恭 ”? 和 “ 喜 ?" 结 合 起 来 组 成 复合 符号 “恭喜 ”( 这 时 ，“ 茶 喜 ?" 是 一 个 
词 ，， 并 把 它 标 记 在 弧 上 ， 如 图 3.4 所 示 : 
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R34 ” 弧 上 标 有 复合 符号 的 有 限 状 态 转 移 网 络 











图 3.4 中 的 有 限 状 态 转移 网 络 只 有 两 个 状态 : 初始 状态 qo 和 终极 状 
Sq “ ， 语 言 符号 也 只 有 两 个 : 单词 “恭喜 ”和 标点 符号 ”! ”( 其 中 , 单 
词 “ 茶 喜 是 由 两 个 汉字 符号 组 成 的 复合 符号 ) ， 其 转移 函数 为 : 





TIIE; qo } = {qo } 
T{! , qo } = {qf} 











从 状态 qo 出 发 ， 生 成 或 识别 了 复合 符号 “恭喜 ”之 后 ， 还 可 以 再 返回 
到 状态 qdo ”， 形 成 一 个 “回路 ”(loop) ， 从 而 可 以 多 次 重复 语言 符号 “ 茶 
喜 ”。 当 我 们 想 要 多 次 重复 某 个 语言 符号 时 ， 使 用 “回路 "可 以 大 大 简化 
有 限 状态 网 络 的 结构 。 











显而易见 ， 图 3.4 中 的 有 限 状态 转移 网 络 也 共有 前 面 那些 网 络 的 功 
fe, to Ay DAE aah”, "ARESE! C, UREAWAREDCUUX 
样 的 符号 串 。 





C 
图 3.5 含有 多 重 弧 的 有 限 状 态 转移 网 络 








如 条 我 们 对 有 限 状 态 转 移 网 络 中 的 语言 符号 进行 一 定 程度 的 概括 ， 
就 可 以 进一步 简化 有 限 状 态 转移 网 络 的 结构 。 例 如 ， 对 于 图 3.5 中 的 含 
有 多 重 弧 a, b, c 的 有 限 状态 转移 网 络 就 可 以 进行 概括 。 


如 果 我 们 把 a, b,c 概括 为 A， 则 这 个 有 限 状 态 转 移 网 络 中 的 多 重 弧 a， 
b, c 可 简化 为 一 条 简单 的 踊 ， 并 标 以 A， 如 图 3.6 所 示 : 


A 





图 3.6 ”简化 了 的 多 重 弧 


图 3.6 中 的 弧 A 代 表 了 图 3.5 中 的 多 重 弧 a,， b, co WE TERRENA 
的 结构 。 


如 果 我 们 把 有 限 状 态 转 移 网 络 中 的 语言 符 写 ， 不 用 具体 的 单词 或 语 
素 表 示 ， 而 用 词类 来 表示 ， 那 么 ， 它 的 生成 或 识别 能 力 就 更 强 了 。 例 
如 ， 当 我 们 用 有 限 状 态 转移 网 络 来 生成 或 识别 汉语 时 ， 我 们 可 以 采用 
N CAigD . V (动词) 、FN (方位 词 ) ADI ERW) ~ PART (HY 
i? . NUM ( 数 词 ) 、MEA (量词 ) 作为 语言 符号 ， 再 在 网 络 中 使 用 
一 些 回路 ， 便 可 以 生成 或 识别 某 些 简单 的 汉语 句子 。 











m 
图 3.7 弧 上 标 有 词类 的 有 限 状态 转移 网 络 














N 可 以 取 如 下 名 词 : WI. MF. HE. HS CEA. SEHR. NEA. 
山水 画 


V 可 以 取 如 下 动词 ， 坐 、 放 、 走 、 挂 


FN 可 以 取 如 下 方位 词 : 里 、 上 
PART 可 以 取 如 下 结构 助词 : 着 、 了 
NUM 可 以 取 如 下 数 词 : 两 、 三 、 五 


MEA 可 以 取 如 下 量词 : x. 7S. EAE 
ADJ 可 以 取 如 下 形容 词 : £L. A 


这 个 有 限 状 态 转移 网 络 可 以 生成 或 识别 如 下 的 汉语 句子 : 


OFF SH ^ d 两 位 客人 
N FN V PART NUM MEA N 
其 状态 转移 顺序 是 : 
do Wi Q> g> 44> 4s > Jo qr 

DRF 上 放 着 五 个 A 苹果 
N FN V PART NUM MEA ADJ N 
其 状态 转移 顺序 是 : 
qg—* q> dq Ga? Ga? d;—* d;—* de — "d: 

ORZ HR 了 — Exes H 云 
N V PART NUM MEA ADJ N 
其 状态 转移 顺序 是 : 
do “dd Gg ”ds Go fs Yqr 
Gu 上 # 着 山水画 
N FN V PART N 


其 状态 转移 顺序 是 : 
do— d,— qa BF d,— qd, | 
Om £ T 三 位 旅客 
N V PART NUM MEA N 
其 状态 转移 顺序 是 : 
Go d,— 下 一 q4— Is— qd, q 
这 些 句 子 在 汉语 中 都 属于 “ 存 现 句 ”这 一 类 。 这 一 类 句子 的 句 首 用 表 
示 处 所 、 时 间 的 词 或 词组 ， 说 明 某 处 、 某 时 存在 、 出 现 或 消失 某 人 、 某 
事物 。 
存 现 句 的 基本 格式 是 : 


表示 人 处所、 时间 的 词 或 词组 一 一 表示 存在 、 出 现 或 消失 的 动词 

















助词 一 一 表示 存在 、 出 现 或 消失 的 名 词 





由 此 可 见 ， 使 用 词类 这 样 的 语言 符号 ， 提 高 了 有 限 状态 网 络 撕 述 自 
然 语 言 的 能 力 ， 它 不 仅 可 以 描述 某 一 个 句子 的 生成 或 识别 过 程 ， 而 且 可 
以 描述 一 类 句子 。 


我 们 还 可 以 用 有 限 状 态 转移 算 阵 来 表示 有 限 状 态 转 移 网 络 。 和 矩阵 的 
横 轴 表示 语言 符 写 ， 窍 阵 的 纵 轴 表 示 该 语言 符 写 所 从 出 的 状态 ， 和 矩阵 中 
的 状态 表示 该 语言 符号 所 转移 到 的 状态 。 


AN cs | 


AN 





do di 中 中 
di q d P 
q2 qı 中 qr 
dr 中 中 p 


图 3.8 ”转移 矩阵 





相应 于 图 3.7 中 有 限 状 态 转移 网 络 的 状态 转移 矩阵 如 下 : 


在 这 个 状态 转移 矩阵 中 ， 表 示 从 与 之 相应 的 纵 轴 中 的 状态 出 及 ， 不 
能 生成 或 识别 任何 的 语言 符号 。 例 如 ， 和 矩阵 的 第 一 行 说 明 ， 当 从 状态 qo 


到 状态 qj 时 ， 可 以 生成 或 识别 语言 符号 " 恭 *， 而 从 状态 qo 出 发 ， 不 可 能 
生成 或 识别 语言 符号 " 喜 * 和 标点 符号 "! ”;， 和 矩阵 的 第 二 行 说 明 ， 从 状态 
qi 出 发 ， 不 可 能 生成 或 识别 语言 符号 恭 " 和 标点 符号 <! ”， 但 从 状态 qi 
转移 到 状态 q 时 ， 可 以 生成 或 识别 语言 符号 “ 喜 ”， 和 矩阵 的 第 三 行 说 明 ， 
从 状态 qs 出 发 ， 不 可 能 生成 或 识别 语言 符号 “ 喜 ”， 但 从 状态 q; 转移 到 状 
dq, 可 以 生成 或 识别 语言 符号 * 恭 *， 从 状态 q 转移 到 状态 qf 可 以 生成 或 
识别 标点 符号 <! ”， 和 矩阵 的 第 四 行 说 明 ， 从 状态 qe 出 发 ， 不 能 生成 或 识 


别 任何 一 个 语言 符号 和 标点 符号 ， 这 意味 着 ， 状 态 qf 是 终极 状态 。 














应 该 指出 ， 这 样 的 状态 转移 矩阵 只 能 表示 确定 性 的 有 限 状 态 转 移 网 
络 ， 不 能 表示 非 确定 性 的 有 限 状 态 转 移 网 络 ， 因 为 在 非 确定 性 的 有 限 状 
态 转移 网 络 中 ， 当 从 茶 一 个 状态 出 发 生成 或 识别 某 一 个 语言 符号 时 ， 可 
以 转移 到 的 状态 有 两 个 或 两 个 以 上 ， 这 样 ， 在 状态 转移 矩阵 中 的 一 个 位 
置 上 ， 束 必须 表示 两 个 或 两 个 以 上 的 状态 ， 而 这 是 不 可 能 的 。 








例如 ， 在 图 3.2 的 非 确 定性 的 有 限 状 态 转移 网 络 中 ， 从 状态 qd 出 发 
来 生成 或 识别 语言 符号 时 ， 可 以 转移 到 状态 dy ， 也 可 以 转移 到 状态 qo 
， 这 种 情况 在 状态 转移 矩阵 中 是 无 法 加 以 表示 的 。 

当 从 初始 状态 开始 ， 顺 着 有 限 状 态 转移 网 络 中 箭头 所 指 的 方向 ， 一 
个 状态 一 个 地 转移 到 终极 状态 ， 这 个 过 程 叫 做 “ 授 历 ”(traversal)。 

我 们 可 以 把 过 历 的 过 程 想 象 成 一 只 青蛙 从 初始 位 置 开 始 ， 一 个 位 置 
一 个 位 置地 跳 到 终极 位 置 的 过 程 。 如 果 有 限 状 态 转移 网 络 是 用 于 识别 
的 ， 那 么 ， 育 峙 每 跳 一 次 ， 输 入 符号 串 中 的 语言 符号 就 被 抹 反 一个， 如 
果 有 限 状 态 转移 网 络 是 用 于 生成 的 ， 那 么 ， 青 蛙 每 跳 一 次 ， 输 入 符号 串 





中 就 产生 出 一 个 语言 符号 。 这 样 的 模型 叫做 * 蛙 跳 模 型 ”〈frog-jumping 


model) 。 


如 果 用 一 个 有 限 状 态 转 移 网 络 来 进行 识别 ， 那 么 ， 只 有 在 下 述 三 种 
情况 下 ， 青 蛙 才 能 跳 : 


@ 网 络 的 弧 上 所 标记 的 语言 符号 与 输入 符号 串 中 的 下 一 个 语言 符号 
相同 ; 





轨 输 入 符号 串 中 的 下 一 个 符号 属于 网 络 的 弧 上 所 标记 的 词类 ; 


QM zag EA pi eH 号。 





在 头 两 种 情况 下 ， 育 峙 可 以 把 输入 指针 问 前 移动 一 个 单词 并 跳 一 
次 ， 在 第 三 种 情况 下 ， 青 蛙 只 跳 一 次 但 无 须 改 变 输入 指针 。 








这 个 “ 蛙 跳 模 型 "形象 地 说 明了 有 限 状 态 转移 网 络 的 过 有 历 过 程 。 


在 对 一 个 有 限 状 态 转移 网 络 进行 遇 历 的 任何 时 刻 ， 计 算 机 运算 
的 “格局 ”(configuration〉 可 以 用 如 下 的 方法 来 刻 划 。 


如 果 是 识别 程序 ， 格 局 包括 R1 和 R2 两 部 分 : 





e Ri: 当前 状态 的 名 字 ， 也 就 是 青蛙 所 在 的 位 置 ， 
€ R2: 输入 符号 串 中 尚未 识别 的 部 分 。 


如 果 是 生成 程序 ， 格 局 包括 P1 和 P2 两 部 分 : 





e P1: 状态 的 名 字 ， 也 就 是 青蛙 所 在 的 位 置 ; 


有 限 状态 转移 网 络 的 遍历 过 程 也 束 是 一 个 搜索 过 程 Csearch 
process) 。 在 识别 程序 中 ， 搜 索 的 每 一 确定 的 时 刻 的 情况 ， 可 用 格局 
«R1, R2> 表 示 。 例 如 ， 如 采 我 们 用 图 3.2 的 有 限 状态 移 网 络 来 识别 符号 
BAS ALE! ”， 当 过 历 到 网 络 的 中 间 状 态 q1 时 ， 当 前 状态 的 名 字 





Ri-q, ， 输 入 符号 串 中 尚未 识别 的 部 分 R2=“ 喜 蒸 喜 ! ”， 这 时 的 格局 可 
表示 为 : 


«qi, EI 2 


k ,输入 符号 串 中 尚未 识别 的 部 分 
R1 ,当前 状态 的 名 字 
当 对 一 个 有 限 状 态 网 络 进 行 遇 历时 ， 我 们 必须 随时 注意 当前 格局 
(current configuration) 与 待 选 格局 Caltemative configuration) 。 例 
如 ， 对 于 图 3.2 中 的 有 限 状 态 转移 网 络 ， 在 状态 qi 识别 了 语言 符 
号 “喜之 后 ， 存 在 着 两 个 待 选 格局 : 





— 
«qo, AI 


«qj, ARI 


此 时 如 转移 到 状态 go » TASARI”, RI E 
HEIRS ， 由 于 这 个 状态 后 面 的 弧 上 的 标记 为 “! ”， 无 法 继续 识 
别 “ 共 喜 ! ”， 人 遍历 失败 。 因 此 ， 我 们 可 确定 <qo。 ， 共 喜 ! > 为 当前 格局 ， 
而 不 选择 另 一 个 待 选 格局 <q, ， 恭 喜 ! >. 








图 3.9 由 前 面 的 图 复制 而 成 








为 了 进行 顺利 的 搜索 ， 可 以 设立 一 个 缓冲 区 ， 把 所 有 的 待 选 格局 留 
在 缓冲 区 中 ， 而 在 过 历 过 程 中 的 每 一 阶段 ， 应 从 这 上 坚 符 选 格局 中 选择 一 
个 来 作为 当前 格局 。 








图 3.2 中 的 有 限 状 态 转移 网 络 遇 历 过 程 格局 的 选择 情况 ， 可 用 下 面 
的 搜索 树 Csearch tree) 来 表示 : 


<q AS Ee! > <q), Ave! > 
| 
«qx 
«s Le we 
| 
gt 
图 3.10 “搜索 树 








从 这 个 搜索 树 中 可 以 看 出 ， 在 状态 q| ， 识 别 了 语言 符号 " 喜 " 之 后 ， 


ffft4i«qo, WS! feq. ARX! > 两 个 得 选 格 局 ， 我 们 选择 <q。， 厅 
BI > 为 当前 格局 ， 当 通过 了 状态 qo ， 义 回 到 状态 qt 并 识别 了 语言 符 
号 “ 喜 ” 之 后 ， 又 存在 着 <qo。，! > 和 <gq，，! > 两 个 待 选 格局 ， 由 于 状态 
qo 之 后 的 弧 上 的 标记 为 “ 茶 ”， 不 能 识别 “! ”， 故 选择 <q, ，! > 为 当前 格 
局 ， 识 别 了 输入 符号 串 的 最 后 一 个 符号 “! ”之 后 ， 进 入 终极 状态 ， 输 入 
TIS RISA | ”识别 成 功 。 











有 限 目 动机 、 正 则 语法 和 正则 表达 式 之 间 的 关系 如 下 图 所 示 : 





有 限 目 动机 正则 表达 去 


正则 语法 


图 3.11 有 限 自动 机 、 正 则 语法 和 正则 表达 式 都 可 以 等 价 地 描述 正则 语言 














如 果 我 们 把 有 限 状 态 转 移 网 络 上 的 标记 由 一 个 单独 的 符号 改 为 符号 
偶 对 A-a， 这 个 符号 偶 对 A-a 中 的 第 一 个 符号 表示 输入 带子 上 的 符号 A， 
第 二 个 符号 表示 输出 带子 上 的 符号 a， 那 么 ， 束 可 以 把 输入 带子 上 的 符 
与 A 转移 为 输出 带子 上 的 相应 符号 a， 这 样 一 来 ， 有 限 状 态 转 移 网 络 就 变 
成 了 有 限 状态 转录 机 (Finite State Transducers， 简 称 FST) 。 








例如 ， 图 3.12 是 一 个 有 限 状 态 转 录 机 。 


OO—O—O—©O—O 


图 3.12 ”有限 状态 转录 机 
图 中 ，WH 表 示 符 号 偶 对 where — ou, 
BV 表示 符 写 侦 对 is — est, 
DET 表 示 符 写 侦 对 the — #, 


NOUN 表示 符号 偶 对 exit — la sortie, 
policeman — le gendarme, 
shop — la boutique, 
toilet — la toilette. 
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当 这 个 有 限 状态 转录 机 识别 英语 词 时 ， 同 时 也 生成 相应 的 法 语词 ， 
这 样 ， 就 可 以 把 英语 转换 成 相应 的 法 语 ， 实 现 简单 的 词 对 词 机 器 翻译 。 


我 们 知道 ， 法 语 中 的 冠 词 必 须 与 它们 修饰 或 限定 的 名 词 的 性 一 致 ， 
而 英语 中 的 名 词 和 冠 词 则 没有 “性 ”的 变化 。 为 了 解雇 这 个 问题 ， 上 面 的 
有 限 状态 转录 机 把 与 英语 名 词 相对 应 的 法 语词 都 加 上 了 其 性 与 之 一 致 的 
冠 词 ， 如 sortie《〈 出 口 ) 前 加 上 了 阴性 冠 词 la， gendarme (>) 前 加 上 
了 阳性 冠 词 le。 这 样 ， 便 解决 了 法 语 冠 词 的 性 与 其 限定 的 名 词 的 性 的 一 
至 问题。 例如 ， 当 输入 英语 句子 Where is the exit (出 口 在 哪里 ) 时 ， 便 
可 生成 相应 的 法 语句 子 Ou est la sortie， 当 输入 英语 句子 Where is the 





policeman 〈 完 兵 在 哪里 ) 时 ， 便 可 生成 相应 的 法 语句 了 OU est le 


gendarme。 


当然 ， 我 们 也 可 以 对 图 3.12 中 的 有 限 状 态 转录 机 加 以 改进 ， 再 增加 
一 个 状态 qy 和 两 个 弧 DET-M 和 NOUN-M， 原 来 的 弧 DET 改 为 DET-F， 原 


来 的 弧 NOUN 改 为 NOUN-F， 使 之 能 区 分 法 语 的 阳性 冠 词 和 阴性 冠 词 。 


WH BV DET-F NOUN-F 9 OUN-M 


DET-M 
图 3.13 ”增加 一 个 状态 qs 











其 中 ，DET-M 表 示 阳 性 冠 词 ，DET-F 表 示 阴 性 冠 词 ，NOUN-M 表 示 
阳性 名 词 ，NOUN-F 表 示 阴 性 名 词 。 英 语 没有 阳性 和 阴性 的 区 别 ， 冠 词 
和 名 词 都 不 必 区 别 阳 性 和 阴性 ， 只 是 在 生成 法 语 时 才 区 别 阳 性 和 阴性 。 


WH 表 示 符 号 偶 对 where 一 ou, 

BV 表 示 符 号 偶 对 is 一 est, 
DET-Mz ÍF s Xt the — le, 
DET-FZC f S ftf the — la, 
NOUN-M 表 示 符 号 俩 对 policeman — gendarme, 


NOUN-F 表示 符号 偶 对 exit 一 sortie, 
shop 一 boutique, 


toilet — toilette. 


这 样 ， 当 输入 英语 句子 Where is the _ exit 时， 由 于 与 英语 的 exit 相 应 
的 法 语词 sortie 是 阴性 名 词 ， 仍 然 按 qu >q >00 >q >q 的 顺序 ， 生 成 
法 语句 子 OV est la sortie; 当 输 入 英语 句子 Where is the policeman 时 ， 由 
于 与 英语 词 policeman 相 应 的 法 语词 gendarme 是 阳性 名 词 ， 有 限 状 态 转录 
机 从 状态 q 转移 到 状态 q4 ， 生 成 法 语 阳性 冠 词 ltg， 再 从 状态 q4 转移 到 终 
极 状态 qe ， 生 成 法 语 阳 性 名 词 gendarme。 但 在 状态 q, 如 果 不 转移 到 状态 
q4 ， 而 转移 到 状态 q3 ， 由 于 英语 的 policeman 在 法 语 中 没有 相应 的 阴性 
名 词 NOUN-F， 不 能 产生 出 相应 的 法 语词 ， 这 时 ， 只 有 从 状态 q3 EW 
(backtracking) 到 状态 q ， 再 经 过 DET-M 弧 转移 到 状态 q4 ， 从 而 生成 


与 英语 词 policeman 相 应 的 法 语词 gendarme。 由 此 可 见 ， 这 个 有 限 状 态 转 
录 机 是 非 确 定性 的 。 这 种 非 确定 性 要 求 转录 机 具有 回 渊 功能 ， 才 能 在 过 
历时 得 到 成 功 。 











这 只 是 英 一 法 机 器 翻译 的 一 个 最 为 简单 的 实例 ， 实 质 上 只 是 词 对 词 
的 机 器 翻译 ， 真 正 的 机 器 翻译 系统 要 比 这 复杂 得 多 。 


2. PRR AS Lae HY Jr BR PE 


有 限 状 态 转移 网 络 和 和 有限 状态 转录 机 都 是 有 限 状态 机 器 CFinite- 
State Machine) ， 这 种 有 限 状 态 机 器 是 一 种 最 简单 的 描述 自然 语言 的 形 
式 工 具 ， 因 而 它 不 可 避免 地 存在 着 局 限 性 。 





从 数学 上 说 ， 有 限 状 态 机 器 可 以 描述 n 个 a 相 连 而 构成 的 符号 串 


nfa 
也 可 以 描述 m 个 b 相 连 而 构成 的 符号 惠 
b. = ba bh, 
m^ b 
VET DUH in Ava m Abin ETREZE E k 
ah sa ra bm, 


nfa mb 
例如 ， 我 们 可 以 提出 如 下 的 有 限 状 态 转移 网 络 来 拉 述 这 样 的 符号 串 : 


a b 





图 3.14 
我 们 不 难 用 这 个 有 限 状 态 转移 网 络 来 生成 符号 串 aaa， bbbbb， 


aaabbbbb, … 等 等 ， 有 兴趣 的 读者 不 妨 一 试 ， 这 里 就 不 详 述 了 。 


用 这 样 的 有 限 状 态 网 络 来 生成 aaabbbbb 这 样 的 形式 为 a  b 的 符号 串 
时 ， 符 号 a 的 数目 与 符号 b 的 数目 是 不 能 由 网 络 本 身 来 控制 的 。 当 符号 a 
的 数目 n 与 符号 b 的 数目 m 不 相等 时 ， 我 们 无 须 对 n 和 m 加 以 控制 ， 但 是 ， 
如 果 我 们 要 求 符号 a 的 数目 n 与 符号 b 的 数目 m 相 等 ， 也 就 是 如 果 a 的 数目 
是 nb 的 数目 也 是 n， 有 限 状态 网 络 对 此 就 无 能 为 力 来 控制 了 。 


美国 语言 学 家 乔 姆 斯 基 从 理论 上 证 明了 ， 下 面 三 种 类 型 的 符号 串 是 
不 能 由 有 限 状 态 转移 网 络 来 生成 的 : 


(1) ab, aabb, aaabbb, ...， 这 种 符号 串 是 由 寿 干 个 a 后 面 跟着 同样 数 
目的 b 组 成 的 ， 可 以 表示 为 {fanba}， 其 中 ，n>1。 


(2) aa, bb, abba, baab, aaaa, bbbb, aabbaa, abbbba，...， 这 种 符号 串 
具有 镜像 结构 (mirror structure) ， 如 果 用 oa 表示 集合 {fa，b} 上 的 任意 非 
空 符号 串 ， 用 a” 表示 a 的 镜像 ， 那 么 ， 这 种 镜像 结构 的 符号 串 可 以 表示 
为 {ao ). 





(3) aa, bb, abab, aaaa, bbbb, aabaab, abbabb, ...， 这 种 符号 串 是 由 
若干 个 a 或 者 若干 个 b 构 成 的 符号 串 a 后 面 跟 着 而 且 仪 只 跟着 完全 相同 的 
从 号 串 a 而 组 成 的 ， 如 果 用 a 表示 集合 {a， ”b} 上 的 任意 非 空 人 特写 串 ， 那 
么 ， 这 种 符 写 串 可 表示 为 {aa}。 





这 三 种 符号 串 在 目 然 语 言 中 都 可 以 找到 相应 的 结构 ， 这 意味 着 ， 有 
限 状态 机 器 对 目 然 语言 的 描述 能 力 是 不 强 的 。 关 于 这 个 问题 ， 有 兴趣 的 
读者 请 参看 拙 著 《 数 理 语 言 学 》 W 第 二 章 ， 此 处 不 再 多 述 。 在 最 近 出 
版 的 《现代 语言 学 名 著 选读 》 Pl 的 附录 中 有 乔 姆 斯 基 的 《语言 描写 的 
三 个 模型 》 的 中 文 译本 ， 此 文 由 张 和 友 博士 翻译 成 中 文 ， 我 做 了 校对 ， 
有 兴趣 的 读者 不 妨 一 读 。 





由 于 存在 着 上 述 的 这 些 局 限 ， 有 限 状 态 机 需 处 理 目 然 语言 句子 的 效 
率 很 差 。 因 此 ， 在 目 然 语言 处 理 系统 中 ， 我 们 更 多 地 使 用 有 限 状 态 机 咒 
来 处 理 单 词 ， 进 行 形 态 分 析 ， 而 不 大 用 于 句法 分 析 。 下 面 我 们 就 来 说 明 
如 何 用 有 限 状 态 机 器 来 进行 形态 分 析 。 





第 二 节 BAPE AES 
的 自动 词法 分 析 


传统 语言 学 根据 词 的 形态 结构 把 语言 分 为 三 大 类 : 








(1) 分 析 型 语言 : 其 特点 是 词 基本 上 没有 专门 表示 语法 意义 的 附 
加 成 分 ， 形 态 变 化 很 少 ， 语 法 关系 靠 词 序 和 虚词 来 表示 。 如 汉语 、 藏 语 


FY 
等 。 














(20 RAIER: 其 特点 是 词 内 有 专门 表示 语法 意义 的 附加 成 
分 ， 一 个 附加 成 分 表达 一 种 语法 意义 ， 一 种 语法 意义 也 基本 上 由 一 个 附 
加 成 分 来 表达 ， 词 根 或 词 干 跟 附 加 成 分 的 结合 不 紧密 。 如 芬兰 语 、 日 语 


FY 
等 。 


(3) 屈折 型 语言 : 其 特点 是 用 词 的 形态 变化 表示 语法 关系 ， 一 个 
形态 成 分 可 以 表示 奉 干 种 不 同 的 语法 意义 ， 词 根 或 词 干 跟 附 加 成 分 结合 
得 很 紧密 ， 往 往 不 易 截 然 分 开 。 





分 析 型 语言 的 形态 变化 很 少 。 例 如 ， 在 书面 汉语 中 ， 勉 强 称 得 上 届 
折 词 尾 的 只 有 一 个 “ 们 ” 字 ， 它 可 以 加 在 有 生命 的 指 人 名 词 的 后 面 表示 复 
数 ， 如 “学 生 们 ， 老 师 们 ， 先 生 们 ， 女 士 们 ”， 但 是 ， 这 些 词 不 加 “ 们 ”也 
有 复数 的 含义 ， 如 可 以 说 “这 些 学 生 ， 这 些 老师 ， 那 些 先生 ， 那 些 女 
士 "。 因 此 ， 书 面 汉语 在 形态 变化 方面 的 问题 不 是 很 多 。 














1. 锋 看 型 语言 的 形态 分 析 


对 于 医 着 型 语言 ， 由 于 其 附加 成 分 很 多 ， 形 态 分 析 就 显得 十 分 重 

要 。 例 如 ， 在 芬兰 语 中 ， 由 有 一 定语 法 意义 的 附加 成 分 接 在 词根 或 词 干 
上 表示 各 种 不 同 的 语法 意义 ， 名 词 有 十 五 个 格 ， 是 世界 上 格 最 多 的 语言 
之 一 ; 动词 有 现在 时 、 过 去 时 的 变化 ， 有 四 种 不 定式 和 两 种 分 词 ， 它 们 
随 格 、 数 、 人 称 的 不 同 而 发 生 届 折 变 化 。 如 有 果 我 们 把 分 兰 语 具有 届 折 变 
化 的 词 看 成 是 由 奉 干 个 不 同 的 语素 连接 而 成 的 符号 串 ， 则 可 用 有 限 状 态 
转移 网 络 对 它们 进行 切 分 ， 在 切 分 过 程 中 ， 把 词 干 的 词汇 意义 和 各 种 附 
加 成 分 表示 的 语法 意义 记录 在 届 折 变化 词 上 ， 从 而 得 到 关于 这 个 屈折 变 
化 词 的 词汇 信息 和 语法 信息 ， 达 到 形态 分 析 的 目的 。 为 此 ， 我 们 可 以 建 
六 一 部 机 器 词典 ， 在 机 器 词典 中 ， 对 于 每 一 个 语素 标注 出 形式 、 形 态 信 
恩 、 人 句法 信息 、 语 义 信息 、 它 可 能 接续 的 其 他 语素 等 等 ， 在 利用 有 限 状 
态 转移 网 络 来 切 分 届 折 变化 词 的 过 程 中 ， 束 可 以 将 构成 这 个 届 折 变化 词 
的 各 个 语素 在 词典 中 记录 的 有 关 信 息 ， 转 移 到 这 个 届 折 变化 词 上 ， 从 而 
得 到 关于 这 个 届 折 变化 词 的 各 种 信息 。 





























日 语 也 是 一 种 黏着 型 语言 。 它 的 词 可 以 分 为 独立 词 和 附属 词 两 大 
类 。 独 立 词 在 句 中 能 单独 使 用 ， 如 名 词 、 代 词 、 数 词 、 动 词 、 形 容 词 、 
形容 动词 、 连 体 词 、 副 词 、 连 词 、 叹 词 等 ， 附 属 词 在 句 中 不 能 单独 使 
用 ， 只 能 附 在 独立 词 之 后 起 一 定 的 语法 作用 ， 如 助词 、 助 动词 等 。 除 了 
叹 词 和 连词 之 外 ， 独 立 词 在 句 中 的 地 位 和 语法 功能 都 由 助词 与 助动词 表 
示 ， 因 此 ， 助 词 与 助动词 在 日 语 中 具有 特别 重要 的 作用 。 动 词 、 形 容 
词 、 形 容 动 词 有 届 扩 变化 ， 其 变化 以 后 面 的 顾 着 成 分 为 转移 。 如 果 我 们 
建立 一 部 机 器 词典 ， 把 词 干 以 及 各 种 条 着 成 分 所 表示 的 词汇 、 语 法 、 语 
义 信息 标注 在 机 器 词典 上 ， 然 后 用 一 个 有 限 状 态 转移 网 络 来 描述 形态 分 
析 的 过 程 ， 便 可 实现 对 日 语 的 形态 分 析 。 











例如 ， 我 们 可 以 建立 如 图 3.15 的 有 限 状 态 转 移 网 络 来 分 析 日 语 短 


HAC DS SORES” (BHT) 。 


a4 ict 
O20 o Q 


图 3.15 ”用 FSTN 分 析 日 语 





我 们 建立 如 下 的 词典 : 
ACD: BRMAUC Aw Ch) 的 连用 形 ， 
7:0: Jinta ŒR) 的 连用 形 ， 


KF: 表 租 语 的 动词 去 地 的 终止 形 。 





在 对 图 3.15 中 的 有 限 状 态 转移 网 络 进行 过 历时 ， 词 典 中 的 信息 被 记 
KAALD kE, MARAE BEANA L 办 ww 的 连用 
形 叉 上 办 < ， 加 上 动词 女 台 的 连用 形 契 9 ， 再 加 上 表 敬 语 的 动词 去 才 的 
终止 形 去 才 黏 着 而 成 ， 其 含义 是 “ 变 短 了 ”。 





2. 屈折 型 语言 的 形态 分 析 





对 于 届 折 型 语言 ， 由 于 其 用 届 折 词尾 表示 语法 意义 ， 词 可 以 由 词 
根 、 词 级 和 词尾 构成 ， 词 根 和 词 级 可 以 组 成 词 干 ， 词 根 也 可 以 单独 成 为 
词 干 ， 因 此 ， 我 们 用 如 下 的 有 限 状态 转移 网 络 来 表示 届 折 型 语言 单词 的 
形态 分 析 过 程 〈 图 3.16) 。 











词 干 





图 3.16 ”用 FSTN 作 形态 分 析 





在 图 3.16 中 ， 如 果 一 个 单词 只 包含 词 干 ， 则 其 壳 历 过 程 是 : qu -qr 
。 如 英语 的 form 〈 形 式 ) 。 
如 英语 的 reform 〈 改 革 ，re- 是 前 级，form 是 词 干 ) 。 

如 果 一 个 单词 包含 词根 、 aR, 则 其 遍历 过 程 是 : do 41 >qf 。 
如 英语 的 formation 〈 形 成 ，form 是 词根 ，-ation 是 后 缀 ) 。 

如 果 一 个 单词 包含 前 级 、 词 根 、 后 级 ， 则 其 壳 历 过 程 是 : qu -qo 
>q 一 qf  。 如 英语 的 reformation 〈 革 新 ，re- 是 前 缀 ，form 是 词根 ，- 


ation 是 后 缀 ) o 








如 果 一 个 单词 包含 词 干 、 词尾 ， 则 其 遍历 过 程 是 : do —^5qd» 一 df > 
如 英语 的 forms (form 是 词 干 ，-s 是 词尾 ) 。 





如 果 一 个 单词 包含 前 级 、 词 干 、 词 尾 ， 则 其 遍历 过 程 是 : qu qo 
25q 一 qf 。 如 英语 的 formations (form 是 词根 ，-ation 是 后 经 ，-s 是 词 
Hs 

如 有 果 一 个 单词 包含 前 级 、 词 根 、 后 级 、 词 尾 ， 则 其 过 历 过 程 是 : qo 
+9 >q >Q% 一 qf 。 如 英语 的 reformations (re- 是 前 级 ，form 是 词根 ，- 


ation 是 后 经，-s 是 词尾 ) 。 





由 此 可 见 ， 采 用 有 限 状 态 转移 网 络 ， 可 以 非常 清楚 地 描述 届 折 型 语 
言 单词 的 形态 分 析 过 程 。 





应 该 指出 的 是 ， 在 词根 与 后 级 相连 接 时 ， 有 时 会 发 生 首 变 。 如 英语 
的 词根 decide 与 后 级 -ion 连 接 成 decision 时 ，-de- 变 为 -s-， decide 中 的 元 音 i 
BLN Lai] ， 在 decision 中 变 为 [ij .对 于 这 些 问题 ， 在 用 有 限 状 态 转移 
网 络 来 进行 单词 的 形态 分 析 时 ， 应 该 建立 音 变 规则 来 处 理 。 


下 和 面 ， 我 们 进一步 举例 说 明 如 何 用 有 限 状 态 转 移 网 络 来 进行 德语 、 
法 语 和 英语 等 屈折 型 语言 的 形态 分 析 。 


德语 届 扩 变化 丰富 ， 名 词 、 形 容 词 、 冠 词 和 指示 词 有 性 、 数 、 格 的 
变化 ， 动 词 有 变 位 形式 。 


德语 中 存在 着 大 量 的 派生 词 ， 一 个 单词 的 词 干 加 上 前 绥 可 构成 许多 
新 的 单词 。 最 第 见 的 是 由 动词 加 前 级 构成 新 的 动词 ， 由 名 词 和 形容 词 加 
后 级 构成 新 的 名 词 和 形容 词 。 





由 动词 加 前 级 构成 的 动词 ， 如 由 rufen( 叫 ) 加 前 级 aus- 构 成 
ausrufen (呼喊 )，aus- 是 前 级 ，ruf 是 词 干 ，-en 是 词尾 ， 也 可 以 用 图 





3.16 中 的 有 限 状 态 转移 网 络 来 进行 词法 分 词 ， 其 过 历 过 程 是 : dg — o 


>q? > qf o 


由 名 词 和 形容 词 加 后 级 构成 新 的 名 词 和 形容 词 ， 如 由 名 词 
Kunst (艺术 ) 加 后 级 -ler 构 成 的 名 词 Kunstler CERK) ， 由 名 词 
Stern (Æ) 加 后 级 -artig 构 成 的 形容 词 sternartig〈( 星 状 的 ，stern 是 词 
根 ，-artig 是 后 级 ) ， 由 形容 词 neu (新 的 ) 加 后 缀 -artig 构 成 的 形容 词 
neuartig 〈 新 型 的 ，neu 是 词根 ，-artig 是 后 级 ) ， 也 可 以 用 图 3.16 中 的 有 
限 状 态 转 移 网 络 来 进行 形态 分 析 ， 其 吉 历 过 程 是 : qo >q 一 qf 。 








在 德语 中 还 经 常 使 用 复合 词 ， 这 种 复合 词 由 限定 词 加 上 基本 词 构 
成 ， 基 本 词 位 于 复合 词 的 后 部 ， 复 合 词 的 性 和 数 由 基本 词 决 是， 基本 词 
还 决定 复合 词 的 基本 含义 ， 限 定 词 对 基本 词 起 修饰 和 限定 的 作用 。 例 
如 ， 在 Intelligenztest〈 智 力 测 验 ) 这 个 复合 词 中 ， 基 本 词 是 Test Cll 
验 ) ， 限 定 词 是 Ptelligenz《〈 智 力 ) ， 它 进一步 限定 了 基本 词 Test 的 确切 




















图 3.16 中 的 有 限 状 态 转 移 网 络 不 能 分 析 这 样 的 复合 词 ， 我 们 必须 加 
以 改进 ， 使 它 在 分 析 了 复合 词 中 的 限定 词 之 后 ， 还 能 进一步 分 析 复 合 词 
中 的 基本 词 。 为 此 ， 我 们 从 终极 状态 qt 出 发 ， 再 加 一 条 指向 初始 状态 qo 
的 弧 ， 并 标 以 #， 使 之 从 状态 qr 跳 回 q。， 再 进一步 分 析 复 合 词 中 的 基本 
词 。 如 图 3.17 所 示 。 




















图 3.17 ”可 以 分 析 复 合 词 的 FSTN 


例如 ，Weltgeschichtlich (世界 历史 的 ) 这 个 复合 词 ， 由 名 词 
Welt( 世 界 〉 加 形容 词 geschichtlich (HLM) 复合 而 成 。Welt 是 限定 词 
中 的 词 干 ( 这 个 限定 词 只 有 词 干 )，geschicht 是 基本 词 中 的 词根 ，-lich 
是 基本 词 中 的 形容 词 后 级 。 这 个 复合 词 可 利用 图 3.17 中 的 有 限 状态 转移 
网 络 来 进行 形态 分 析 ， 其 过 历 过 程 是 : go -qr -qo >q ”>qf 。 其 中 ， 
在 qf 与 go 之 间 ， 进 行 了 一 次 返回 初始 状态 的 “跳跃 ”。 














德语 的 许多 复合 词 中 ， 在 组 合成 复合 词 的 各 个 词 之 间 ， 往 往 要 加 
上 -s-，-es-，-en-，-n-，-er- 等 字母 ， 有 的 要 去 掉 修 饰 词 的 词尾 -e-。 例 如 ， 
Lebenszeichen (生命 象征 ) 中 ，Leben 〈 生 命 ) 与 Zeichen (象征 ) 之 间 
加 上 了 -s-; 在 Sinneszelle (感觉 细胞 ) P, Sinn 〈 感 党 ) Zelle (4 
Hu» 之 间 加 上 了 -es-; 在 Nervenzelle( 神 经 细胞 ) F, Nev G) 与 
Zelle 细 胞 ) 之 间 加 上 了 -en-; 在 Sonnenstrahl (阳光 )〉 F, Sonne (大 
阳 ) Strahl (光线 ) 之 间 加 上 了 -n-; 在 Kinderklinik (儿童 诊所 〉 中 ， 
Kind (儿童 ) 与 Klinik (诊所 ) 之 间 加 上 了 -er-; 在 Erdgas (KR) 
中 ， 去 控 了 修饰 词 Erde〈 地 球 〉 的 词尾 -e. 这 些 问 题 ， 在 形态 分 析 时 ， 要 








建立 相应 的 音 变 规 则 来 加 以 处 理 。 





有 时 ， 德 语 的 复合 词 可 由 两 个 以 上 的 词组 成 ， 这 只 需 在 转移 到 终极 
状态 qe 之 后 ， 再 往 开始 状态 qo 跳跃 一 次 或 几 次 就 行 了 ， 仍 然 不 难 用 图 
3.17 中 的 有 限 状 态 转移 网 络 来 进行 形态 分 析 。 但 是 ， 当 复合 词 由 各 二 个 
词组 合 而 成 的 时 候 ， 切 分 时 往往 会 出 现 葛 校 两 可 、 举 棋 不 定 的 情况 ， 这 
就 需要 在 各 种 可 能 的 切 分 情况 中 进行 选择 ， 确 定 一 种 正确 的 切 分 ， 排 除 
不 正确 的 切 分 。 








例如 ，Bauerlaubnisse (准许 建筑 ) 这 个 复合 词 ， 在 德语 的 机 器 词典 
中 ， 存 有 Bauer (das Bauer, FEK, SH) , Bau (动词 bauen 的 词 
F, Æ) , Bauer (der Bauer， 阳 性 名 词 ， 农 民 ) ，Erlaub 〈 动 词 
erlauben 的 词 干 ， 准 许 ) Erlaubnis (die Erlaubnis, HIZ, ME 
许 ) , Laub (das Laub， 中 性 名 词 ， 树 时 ) , Nisse (die Nisse， 阴 性 名 
ij, BISON) , -se Hiii) 等 语素 ， 因 此 ， 可 能 存在 的 切 分 情况 有 
三 种 : 


(DBau + erlaubnis + se 
(Bauer + laub + nisse 
(3)Bau + erlaub + nisse 


为 了 在 这 三 种 可 能 的 切 分 中 选择 出 正确 的 切 分 ， 我 们 可 检查 每 种 切 
分 在 语义 上 的 相 容 性 。 


在 中 ， 其 语义 的 组 合 情 况 是 : 


建筑 + 准许 + 名 词 词 尾 


切 分 出 来 的 三 个 部 分 的 语义 是 相 容 的 。 
在 包 中 ， 其 语义 的 组 合 情 况 是 : 


EE I + LF Bn 


AK ER + YY + LP OD 





切 分 出 来 的 三 个 部 分 在 语义 上 不 相 容 。 
在 (3) 中， 其 语义 的 组 合 情 况 是 : 


EE CHE VES Bl BR 





切 分 出 来 的 三 个 部 分 在 语义 上 也 不 相 容 。 


所 以 ， 我 们 选择 语义 上 相 容 的 第 则 种 切 分 ， 排 除 语义 上 不 相 容 的 第 
QB) 两 种 切 分 ， 并 确定 这 个 复合 词 的 词义 为 “准许 建筑 ”。 





法 语 是 从 拉丁 语 演变 而 来 的 。 与 拉丁 语 相 比 ， 法 语 的 词 形 届 折 已 大 
大 简化 ， 名 词 没 有 格 的 变化 ， 性 和 数 主要 通过 名 词 前 的 冠 词 、 限 定 词 来 
区 别 ， 动 词 有 变 位 形式 ， 形 容 词 也 有 性 与 数 的 变化 ， 少 数 形式 还 比较 复 
ARs 法 语 的 词 从 结构 上 也 可 以 分 为 前 级 、 词 干 、 词 根 、 后 经、 词尾 儿 部 
分 ， 名 词 、 形 容 词 、 动 词 都 可 以 通过 加 前 绥 或 后 缀 来 派生 。 








由 词 干 加 前 绥 构 成 的 词 ， 如 contrevent 〈 风 窗 ，contre- 是 前 级 ，vent 
geil) , extrafin 〈 极 细 的 ，extra- 是 前 级 ，fin 是 词 干 ) ， 可 用 图 3.16 
中 的 有 限 状 态 转移 网 络 来 分 机， 其 壳 历 过 程 是 : qu > do qr. 


由 词根 加 后 级 构成 的 词 ， 如 mouvement 〈 运 动 ，mouve 是 词根 ，- 
ment 是 后 级 ) , durable (持久 的 ，dur 是 词根 ，-able 是 后 级 ) ， 可 用 图 
3.16 中 的 有 限 状 态 转 移 网 络 来 分 析 ， 其 遍历 过 程 是 : qo, gr 


由 词根 如 前 级 和 后 级 构成 的 词 ， 如 surproduction 〈 生 产 过 剩 ，sur- 是 
前 级 ，product 是 词根 ，-ion 是 后 级 ，telespectateur( 电 视 观 众 ，tele- 是 前 
级 ，spectat 是 词根 ，-eur 是 后 级 ) ， 也 可 用 图 3.16 中 的 有 限 状 态 转 移 网 络 
来 分 析 ， 其 遍历 过 程 是 : do qo ~ql gre 





在 具体 的 法 语 形态 分 析 中 ， 图 3.16 中 的 有 限 状态 转移 网 络 显得 过 于 
笼统 和 简单 。 


当 名 词 后 级 是 -ance, -ation, -ade, -ment 时 ， 其 词根 一 般 是 动词 词根 。 
例如 ， 名 词 obeissance (服从) 的 词根 是 动词 词根 obeiss-， 名 词 
creation 〈 创 造 ) 的 词根 是 动词 词根 cre-， 名 词 promenade (散步 ) 的 词 
根 是 动词 词根 promen-， 名 词 fabrication (生产 ) 的 词根 是 动词 词根 
fabric- 〈fabriqu- 的 音 变形 式 ) 。 

















当 形 容 词 后 级 是 -able， -if 时 ， 其 词根 一 般 也 是 动词 词根 。 例 如 ， 形 
容 词 navigable《〈 可 航行 的 ) 的 词根 是 动词 词根 navig-， 形 容 词 pensif( 沉 
思 的 ) 的 词根 是 动词 词根 pens-。 








当 名 词 后 级 是 -ité，-esse 时 ， 其 词根 一 般 是 形容 词 词根 ， 例 如 ， 名 词 
fidelité CEK) 的 词根 是 形容 词 词根 fidel-， 名 词 souplesse CAO mj 
根 是 形容 词 词根 soupl-。 











由 形容 词 词根 构成 名 词 时 ， 有 时 还 会 发 生 音 变 。 例 如 ， 名 词 
sottise CAE) 由 形容 词 词根 sot-〈( 笨 的 ) 和 后 级 -ise 构 成 ， 而 在 它们 之 


间 ， 要 加 辅音 字母 -t-。 








基于 这 些 情况 ， 我 们 有 必要 区 分 构成 合成 词 的 词根 是 动词 词根 还 是 
形容 词 词 根 ， 从 而 更 加 细致 地 描述 名 词 和 形容 词 的 形态 分 析 过 程 。 








另外 ， 分 析 的 方 癌 也 不 一 定 总 是 从 左 到 右 ， 也 可 以 从 右 到 左 ， 先 分 
析 词 尾 、 后 级 ， 再 分 析 词 根 ， 最 后 才 分 析 前 绥 。 





为 了 处 理 法 语 中 这 些 复杂 的 语言 现象 ， 我 在 法 一 汉 机 器 翻译 系统 
FCAT 的 研制 中 ， 提 出 了 如 图 3.18 中 的 有 限 状态 转移 网 络 。 
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等 后 级 





音 变 成 分 
图 3.18 ”法 语 形 态 分 析 的 FSTN 





这 样 ， 词 根 为 动词 词根 的 名 词 ， 如 果 没 有 音 变 成 分 ， 则 其 过 有 历 过 程 
是 qo q4 -qr ， 例 如， 法 语 的 creation， 先 分 析 后 级-ation， 后 分 析 动 词 
词根 cre-。 如 果 有 音 变 成 分 ， 则 其 遍历 过 程 是 qo = q4 -qe qr。 例如 ， 
法 语 的 fabrication， 先 分 析 后 绥 -ation， 再 把 音 变 成 分 -cC- 变 为 -qu-， 再 分 
析 动 词 词根 fabriqu-。 


词根 为 形容 词 词根 的 名 词 ， 如 果 没有 音 变 成 分 ， 则 其 遍历 过 程 是 qu 
+q3 qs. 。 例 如 ， 法 语 的 souplesse， 先 分 析 后 绥 -esse， 再 分 析 形 容 词 词 
根 soupl。 如 果 有 音 变 成 分 ， 遍 历 过 程 是 0。-qs +05 >q 。 例 如 ， 法 语 
的 sottise， 先 分 析 后 组 -ise， 再 分 析 音 变 成 分 --， 最 后 分 析 形 容 词 词根 


SOL. 


法 语 的 名 词 、 形 容 词 、 动 词 都 有 词尾 屈折 变化 。 如 果 名 词 、 形 容 词 
有 屈折 变化 词尾 ， 则 首先 还 要 分 析 词 尾 ， 再 分 析 后 缀 和 词根 。 无 音 变 
时 ， 其 遍历 过 程 是 qo >q ~q3 一 qf 或 go ^d; ~q4 -qr ， 有 音 变 时 ， 其 
遍历 过 程 是 qo ~ qi > 43 >qs ^q; qo ^q; > G4 >q ^q; 。 如 果 动 词 有 
屈折 变化 词尾 ， 则 首先 分 析 动 词 词 尾 ， 再 分 析 动 词 词 干 ， 其 壳 历 过 程 是 
do 一 42 一 df © 














如 果 名 词 、 形 容 词 、 动 词 还 有 前 级 ， 则 还 需 在 终极 状态 qf 分 析 了 前 
级 之 后 ， 再 回 到 这 个 终极 状态 qe .例如 ， 法 语 的 prefabrication (预制 )， 
其 遍历 过 程 是 qo >q4 -qe -qr ~ df. 首 先 分 析 后 绥 -ation， 再 把 音 变 成 分 - 
c- 改 变 为 -qu-， 再 分 析 动 词 词根 fabriqu-， 最 后 再 分 析 前 缀 pre-。 


法 语 名 词 和 形容 词 的 词尾 屈折 变化 比较 复杂 ， 我 们 在 自动 处 理 时 把 
它们 分 为 10 组 (如 图 3.19 所 示 〉。 


组 别 





mur ( 墙 ),maison ( 房子 ),riche ( 丰富 ) 
candidat ( 候选 人 ),noir ( H9 ) 
mois ( H ),gris ( 灰 的 ) 
canal ( 运河 ), général ( —RERS ) 
chetif ( 体 弱 的 ), actif ( 运动 的 ) 
réel ( 真正 的 ) 
chien ( 狗 ) , moyen ( 中 间 的 ) 
chat ( 猫 ), net ( 清楚 的 ) 
eusses | gazeux ( 气体 的 ) 
中 cheveu 人 头发 ) 


图 3.19 ”法 语 名 词 形 容 词 词尾 届 折 变化 分 组 


1 
2 
3 
4 
3 
6 
7 
8 
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—_ 
c 





























图 3.19 中 的 表示 词尾 为 空 ， 即 语言 学 中 的 零 形式 。 


在 本 书 作 者 设计 的 法 一 汉 机 器 翻译 系统 FCAT (19834F) 中， 法语 
动词 词尾 按 数 、 时 态 、 语 态 以 及 它 的 不 定式 和 分 词 来 分 组 ， 共 分 为 9 
E 


由 于 自然 语言 处 理 的 文本 多 为 科技 文章 ， 总 是 用 第 三 人 称 ， 因 此 ， 
其 他 人 称 一 人 

会 有 一 些 共同 的 性 质 ， 所 以 ， 在 分 组 时 ， 还 要 在 有 关 词 尾 的 右上 和 负 
pbi 字母 ， 以 示 区 别 。 如 图 3.20 所 示 。 





现在 时 直 陈 式 单数 
现在 时 直 陈 式 复数 nent 


未 完成 过 去 时 
直 陈 式 单数 
未 完成 过 去 时 
直 陈 式 复 数 


issait sai sait 


issaient saient 


JRS 
现在 时 虚拟 式 单数 isse 
现在 时 虚拟 式 复 数 issent nent 
[e] 
将 来 时 直 陈 式 单数 ré ira 
将 来 时 直 陈 式 复 数 | eront iront 











现在 时 条 件 式 单数 | erait irait drait rait 
现在 时 条 件 式 复数 | eraient | iraient | draient raient 


[D 四 


不 定式 er 








现在 分 词 





过 去 分 词 

















图 3.20 ”法 语 动 词 词尾 变化 分 组 


例如 ， 法 语 的 动词 passer GB) 的 词 干 Bass， 可 取 如 下 词尾 : 


1A passe， passent 一 一 现在 时 直 陈 式 

1B passera, passeront —— 将 来 时 直 陈 式 

1C passait, passaient —— 未 完成 过 去 时 直 陈 式 
1D passer — ASE 

1E passant — 现在 分 词 

IF passé 一 一 ”过 去 分 词 


动词 savoir( 知 道 ) 的 屈折 变化 比较 复杂 ， 当 它 的 词 干 是 sav 时 ， 可 
取 如 下 词尾 : 


9A sav, savent — — 现在 时 直 陈 式 


1C savait, savaient 一 一 未 完成 过 去 时 
5D savoir — = Wen 

当 savoir 的 词 干 是 sach 时 ， 可 取 如 下 词尾 : 
9G sache, sachent 一 一 现在 时 虚拟 式 
1E sachant 一 一 现在 分 词 


我 们 对 名 词 、 形 容 词 和 动词 词尾 屈折 变化 的 分 组 ， 与 传统 语法 有 一 
些 不 同 ， 但 这 样 更 加 便于 计算 机 处 理 。 


用 有 限 状 态 转移 网 络 来 进行 法 语 形态 分 析 时 ， 还 要 考虑 法 语 单 词 的 
各 种 可 能 的 切 分 情况 ， 确 定 正 确 的 切 分 ， 排 除 不 正确 的 切 分 。 在 切 分 的 
同时 还 要 奉 词 典 ， 把 词典 中 记录 的 有 关 信 息 赋 值 在 所 切 分 的 部 分 上 ， 这 
样 ， 当 一 个 有 限 状 态 转 移 网 络 过 有 历 完毕 ， 有 关 单 词 的 切 分 也 就 随 之 完 
成 ， 网 络 进入 终极 状态 ， 有 关 单 词 也 就 被 赋予 了 所 切 分 部 分 记录 在 词典 
中 的 信息 。 这 些 信息 就 是 尔后 句法 分 析 和 语义 分 析 的 基础 。 这 些 信息 越 
准确 ， 对 尔后 的 句法 分 析 和 语义 分 析 束 越 有 利 。 





























英语 是 现代 语言 中 顺 具 影 啊 的 一 种 语言 ， 由 于 在 历史 上 英语 曾 与 多 
种 民族 语言 接触 ， 它 的 词汇 由 “一 元 ” 变 为 “多 元 ”， 语 法 从 “多 届 折 ” 变 
为 “ 少 届 折 ”。 近 代 英 语 的 词 形变 化 仅 限 于 名 词 的 数 ， 代 词 的 性 、 数 、 
格 ， 动 词 的 时 态 ， 形 容 词 没有 性 、 数 、 格 的 变化 。 








英语 的 名 词 、 形 容 词 、 动 词 也 可 由 前 经 、 词 根 、 后 级 等 部 分 组 成 ， 
名 词 和 动词 还 有 届 折 词尾 ， 因 此 ， 也 可 以 用 图 3.16 中 的 有 限 状态 转移 网 
络 来 进行 形态 分 机。 当然， 图 3.16 中 的 有 限 状 态 转移 网 络 只 是 一 般 地 说 
明了 分 析 的 过 程 。 








在 实际 的 语言 分 析 中 ， 还 必须 编写 词典 和 制定 分 析 规 则 。 下 面 ， 我 
们 以 英语 为 例子 ， 具 体 地 说 明 词 典 和 分 析 规 则 的 编制 方法 。 


如 果 我 们 要 对 英语 的 fly CK) , work CTE) , arive 到达) ， 
stop FIE) 四 个 动词 进行 形态 分 析 ， 首 先 我 们 必须 对 这 四 个 动词 的 变 
位 情况 进行 分 类 。 


这 四 个 英语 动词 的 变 位 情况 如 下 : 


原形 fly work arrive stop 
单数 第 三 人 称 flies works arrives stops 
过 去 时 flew worked arrived stopped 
过 去 分 词 flown worked arrived stopped 
现在 分 词 flying working arriving stopping 


我 们 把 这 四 个 动词 的 变 位 情况 分 为 1，2，3，4 四 个 类 ， 如 图 3.21 所 

















图 3.21 ”英语 动词 词尾 变化 分 组 





图 3.21 中 ， 中 表示 词尾 为 空 〈 堆 形式) 。 


我 们 选择 如 下 的 有 限 状 态 转 移 网 络 来 控制 形态 分 析 过 程 (图 
3.22) : 


词 干 





图 3.22 ”英语 动词 形态 分 析 的 FSTN 








我 们 建立 两 部 词典 : 一 部 是 词 干 词典 ， 一 部 是 词尾 词典 。 词 典 中 记 
录 着 有 关 的 信息 。 





e 词 干 词典 

FL: 1 类 动词 ， 后 可 接 介词 t0， 词 形 为 fly。 

WORK: 2 类 动词 ， 后 可 接 介词 at 或 不 接 介 词 ， 词 形 为 work。 
ARRIV: 3 类 动词 ， 后 可 接 介词 at， 词 形 为 arrive。 


STOP: 4 类 动词 ， 可 做 及 物 动 词 ， 亦 可 做 不 及 物 动 词 ， 词 形 为 
Stop 。 


。 词 尾 词典 


IES: 1 类 动词 词尾 ， 现 在 时 ， 单 数 ， 第 三 人 称 。 





EW: 1 类 动词 词尾 ， 过 去 时 。 





OWN: 1 类 动词 词尾 ， 过 去 分 词 。 


YING: 1 类 动词 词尾 ， 现 在 分 词 。 





S: 2 类 或 4 类 动词 词尾 ， 现 在 时 ， 单 数 ， 第 三 人 称 。 











ED: 2 类 、3 类 或 4 类 动词 词尾 ， 过 去 时 或 过 去 分 词 。 





E: 3 类 动词 词尾 ， 不 定式 。 
ES: 3 类 动词 词尾 ， 现 在 时 ， 单 数 ， 第 三 人 称 。 








ING: 2 类 、3 类 或 4 类 动词 词尾 ， 现 在 分 词 或 动 名 词 。 








我 们 还 要 根据 有 限 状 态 转移 网 络 提出 知 干 规 则 ， 来 控制 形态 分 析 的 
过 程 。 规 则 要 说 明 执 行 该 规则 的 条 件 、 赋 值 的 情况 和 字符 链 变 化 〈 链 
BE) 的 情况 。 





QD 规则 1: 





一 条 件 ， 该 动词 为 4 类 动词 ， 状 态 处 于 q。 ””， 词 干 后 四 个 字母 为 
PING， 或 词 干 后 三 个 字母 为 PED。 





一 赋值 : 把 词典 1 中 的 信息 赋 到 当前 词 上 ， 状 态 改 变 为 qi 。 
一 链 变 : 将 词 干 后 的 第 一 个 字母 p 去 掉 。 
规则 2: 











一 条 件 : 该 动词 为 1 类 、2 类 或 3 类 动词 ， 状 态 处 于 qu ， 词 干 后 的 第 
一 个 字母 不 为 空 


一 赋值 : 把 词典 中 的 信息 赋 到 当前 词 上 ， 状 态 改 变 为 qi 。 


(3) 规则 3: 











一 条 件 :该 动词 为 1 类 、2 类 或 3 类 动词 ， 状 态 处 于 go。 ， 词 干 后 第 一 
个 字母 为 空 。 


一 赋值 ， 把 词典 中 的 信息 赋 到 当前 词 上 ， 状 态 改变 为 gt ， 即 最 后 状 


C 


由 规则 4: 











一 条 件 :1 类 、2 类 、3 类 或 4 类 动词 词尾 ， 状 态 为 ， 且 当前 词 词 二 
的 动词 变 位 类 别 与 所 分 析 词尾 的 动词 变 位 类 别 不 矛盾 。 











一 赋值 : 把 当前 词 中 已 赋 好 值 的 信息 与 词典 2 中 记录 的 有 关 信 息 一 
起 赋 到 所 分 析 的 词 上 ， 并 把 状态 改变 为 qf 。 





采用 这 样 的 规则 ， 计 算 机 便 可 进行 动词 词尾 的 切 分 ， 并 把 词典 1 的 
词 干 中 所 记录 的 信息 以 及 词典 2 的 词尾 中 所 记录 的 信息 ， 正 确 地 赋 到 所 
分 析 的 词 上 ， 达 到 目 动 形态 分 析 的 目的 。 


上 述 在 计算 机 内 进行 的 语言 的 形态 分 析 过 程 ， 是 不 是 与 人 的 大 脑 中 
所 进行 的 形态 分 析 过 程 一 致 呢 ? 它 是 不 是 人 的 大 脑 中 所 进行 的 形态 分 析 
过 程 的 计算 机 模拟 呢 ? 这 是 一 个 十 分 有 趣 而 复杂 的 问题 ， 目 前 我 们 还 难 
以 作出 完满 的 回答 。 





3. 形态 分 析 的 心理 学 依据 


不 过 ， 现 代 心 理学 的 一 些 成 有 果 ， 可 以 为 我 们 进一步 探讨 这 个 饶 有 趣 
味 而 复杂 的 问题 提供 线索 。 下 面 我 们 介绍 其 中 的 两 个 重要 的 实验 结 





e ERR (M. Taft) 通过 实验 发 现 ， 当 被 试 者 来 识别 单词 时 ， 一 个 
由 单一 语素 构成 的 词 ， 可 以 直接 识别 ， 而 由 不 同 语素 构成 的 词 ， 识 别 时 
则 需要 先 把 该 词 分 解 为 语系 ,然后 才能 识别 ， 对 带 前 级 的 词 ， 则 需要 先 
进行 前 缀 的 脱落 ， 然 后 才 搜索 词 中 的 其 他 语素 ， 如 果 搜 索 成 功 ， 还 需要 
比较 前 级 与 词 中 的 其 他 语素 在 语义 上 是 否 相 容 。 因 此 ， 对 词 的 识别 是 一 
个 多 阶段 的 搜索 过 程 。 这 个 过 程 ， 与 我 们 用 有 限 状 态 转移 网 络 所 描述 的 
过 程 大 同 小 异 。 























e 词 的 识别 不 仅仅 与 该 词 的 发 音 和 词 形 等 感觉 信息 的 输入 有 关 ， 而 
且 还 与 人 的 大 脑 中 所 存储 的 天 于 该 单词 的 各 种 知识 有 关 ， 这 些 知识 能 对 
输入 的 感 党 信息 进行 解释 和 预测 。 因 此 ， 可 以 把 人 脑 中 所 存储 的 有 关 词 
汇 的 知识 比喻 为 一 部 心理 词典 ， 词 的 识别 过 程 也 就 是 在 心理 词典 中 进行 
查询 和 搜索 的 过 程 ， 如 果 根据 词 的 发 音 或 词 形 在 心理 词典 中 找到 了 相应 
的 词汇 条 目 并 理解 了 它 的 含义 ， 在 心理 学 中 就 叫做 “词汇 通达 ”(Lexical 
Access) 。 纯 布 莱 (J. I. Chunbley) 和 巴 洛 塔 CD. A. Balota) 通过 心理 
学 实验 发 现 ， 单 词 的 识别 可 以 分 为 两 个 阶段 : 第 一 ， 词 汇通 达 阶 段 一 一 
把 词 的 发 音 或 词 形 等 信息 与 心理 词典 中 存储 的 一 个 个 条 目 相 匹配 ， 从 而 
在 心理 词典 中 找到 相应 的 单词 ， 第 二 ， 意 义 决策 阶段 一 一 要 确定 单词 的 
发 音 、 意 义 以 及 其 他 信息 。 只 有 在 词汇 通达 之 后 ， 才 有 可 能 进行 意义 的 
确定 。 这 个 过 程 ， 与 我 们 借助 于 机 器 词典 和 规则 来 进行 形态 分 析 的 过 程 
也 相去 无 几 。 


第 三 和 汉语 书面 文本 的 目 动 切 词 
1. 词 式 书号 的 必要 性 





书面 汉语 不 同 于 英语 、 德 语 、 法 语 等 印 欧 语 言 ， 类 语 、 德 语 、 法 语 
在 书写 时 ， 词 与 词 之 间 用 空格 分 开 ， 因 而 词 与 词 之 间 的 界限 在 书面 上 是 
谓 弃 分 明 的 ;而 汉语 在 书写 时 ， 词 与 词 之 间 不 留 空白 ， 一 个 汉语 句子 就 
是 一 大 串 前 后 相 续 的 汉字 的 字符 串 ， 词 与 词 之 间 的 界限 ， 被 前 后 相 续 的 
汉字 淹没 得 无 影 无 踪 了 。 


























其 实 ， 古 拉丁 文 也 是 没有 单词 界限 的 ， 阅 读 时 也 存在 切 分 的 问题 。 
2009 年 6 月 ， 我 到 意大利 罗马 访问 ， 发 现在 著名 的 “真理 之 口 * 附 近 的 对 
玛 利 亚 教 党 里 有 一 块 石 碑 ， 在 石碑 上 的 古 拉丁 文 是 没有 空格 的 ， 只 是 在 
一 些 理解 困难 的 地 方 ， 使 用 小 加 点 ， 我 问 当地 人 ， 他 们 估计 可 能 是 早期 
的 “标点 符号 ”， 用 于 分 割 太 长 的 语 段 。 例 如 ， 倒 数 第 7 行 
ESSE.EIDEMDEI'GENETRICIS 如 果 分 词 应 当 是 “ESSE EI DEM DEI 
GENETRICIS”( 意 思 是 “我 应 给 她 ， 她 是 神 的 妈妈 ”) 中 EIDEMDEI 三 个 
词 之 间 没 有 空格 ， 而 且 DEMDEI 两 个 词 不 但 没有 分 开 ， 而 且 把 M 的 右边 
和 DD 的 左面 连 写 在 一 起 了 。 其 他 部 分 的 单词 与 单词 之 间 基 本 上 没有 空 
格 ， 很 难看 出 单词 之 间 的 分 界 。 我 认为 这 是 一 个 基本 上 没有 分 词 的 拉丁 
语文 本 ， 尽 管 有 某 些 地 方 使 用 小 圆 点 分 割 文 本 使 之 便于 阅读 。 
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图 3.23 上古 拉丁 文 的 文本 中 基本 上 没有 单词 界限 


公元 4 世纪 哥 特 人 武 尔 菲 拉 〈Waulfila) 采用 在 希腊 字母 基础 上 发 展 
的 字母 书写 古代 的 日 耳 曼 语 ， 他 用 西部 哥 特 人 的 哥 特 语 翻译 了 原来 用 拉 
了 丁 语 写 的 《圣经 》。 从 当时 的 文字 版 面 可 见 ， 也 有 类 似 上 面 拉丁 语 石碑 
中 那样 的 小 圆 点 ， 笔 者 估计 也 可 能 是 早期 的 “标点 符号 ?， 但 是 ， 单 词 之 





间 没 有 空格 ， 还 没有 实行 “ 词 式 书写 ”。 


= Musis “NINANNAMAT 
RASASYINODISPAAGIPANASINTARA 
| ISVIAY N, VEARAIY onn. : 
SY ING ANTABINGI® p. pind cae 
TAKS ISo1s VAN m. ENUI 
REALES IANARTAAFAGTASNPAIN 
“YAN RATESNNANMANNGG)HNAT . 
“TEINASS ATM) SSYASYEYN 
-GANGROXANS. DA. 


A Tee 2 


MEKSI 入 这 全 &ihANA 
RS AKSKHANIST 


p 3 us prt 


AN maus nu. 
NARHA IN REANGA 
ANUGMANNOAN 
E eT ya a 
à STANDA NASA. 
f SDNSRINHA AITANSLN AINA; 
ue bi hà AHAMNATGI-U: eT 
| fp Ear SA ag 
| es ed 9 


oul 


Bees 





图 3.24 ”四 世纪 哥 特 人 Wulfila 翻 译 的 哥 特 语 《 圣 经 》 


后 来 ， 欧 洲 人 改革 了 这 种 落后 的 文字 书写 方式 ， 单 词 之 间 用 空格 分 


开 ， 大 大 方便 了 阅读 。 


SIEEBUUZ Changu) 是 一 种 音 系 化 的 音节 文字 ，1444 年 由 李 世 军 
大 王 主持 创立 ， 创 立 的 时 候 按照 音节 书写 ， 为 了 区 分 同音 音节 ， 文 本 中 
仍然 夹杂 不 少 的 汉字 。 过 了 500 年 ， 到 1948 年 取消 夹 洒 使 用 汉字 以 
后 ,，“ 词 式 书写 ” 才 开始 实行 ， 词 与 词 之 间 使 用 空格 阳 开 ， 这 给 谚 文 的 书 
写 和 阅读 带 来 了 很 大 的 方便 。 











在 近代 的 中 国 ， 汉 语 的 书面 文本 也 进行 过 一 些 改革 ， 如 改 横 排 为 紧 
排 、 使 用 新 式 标点 等 等 。 但 是 ， 始 终 没有 采用 空格 来 分 割 单词 的 界限 ， 
在 信息 时 代 ， 这 种 连续 的 汉字 文本 的 书写 方式 严重 地 阻碍 了 汉语 书面 文 
本 的 上 自动 处 理 。 在 机 器 翻译 、 信 息 检 索 中 ， 都 成 为 了 一 个 很 大 的 困难 问 


je 








RATA. (oa Ph. BAPE H A heh Da IB CAS SEAT 8] A 
书写 ”的 建议 。 不 过 ， 由 于 长 期 的 书写 和 阅读 的 习惯 ， 人 们 对 于 这 种 “ 词 
式 书写 ”仍然 不 欢迎 。 目 前 ， 通 过 书面 文本 本 里 的 改进 (实行 词 式 书 
写 ) 的 条 件 还 不 成 熟 。 为 了 促进 中 文 信息 处 理 的 有 发展， 我 们 只 得 通过 技 
术 来 解决 这 个 问题 ， 我 认为 ， 这 是 一 种 可 行 的 权宜 之 计 ， 是 为 了 适应 大 
家 的 书写 和 阅读 习惯 的 一 种 不 得 已 的 办 法 。 








汉语 的 形态 不 丰富 ， 书 面 汉语 的 单词 基本 上 没有 形态 变化 ， 在 汉语 
的 目 然 语 言 处 理 中 ， 书 面 汉语 形态 分 析 的 主要 任务 不 是 分 析 单 词 的 形态 
变化 ， 而 是 进行 单词 的 自动 切 分 ， 使 伞 前 后 相 续 的 汉字 淹没 得 无 影 无 踪 
的 词 与 词 之 间 的 界限 暴露 出 来 。 词 是 语言 中 最 小 的 能 独立 运用 的 单位 ， 
利用 计算 机 把 汉语 的 一 个 句子 、 一 篇 文章 、 一 部 著作 中 的 单词 ， 逐 一 地 
切 分 出 来 ， 才 有 可 能 对 汉语 进行 进一步 的 分 析 。 因 此 ， 书 面 汉 语 的 自动 
切 词 ， 是 汉 外 机 器 翻译 、 书 面 汉语 文献 自动 标 引 、 书 面 汉 语 的 上 自动 检 
索 、 书 面 汉语 的 搜索 引擎 、 书 面 汉语 上 自然 语言 理解 等 研究 工作 的 基础 和 


前 提 。 


























在 汉语 的 目 然 语言 处 理 中 ， 几 是 涉及 句法 、 语 义 的 研究 项 目 ， 都 要 
以 词 为 基本 单位 来 进行 。 句 法 研究 组 词 成 句 的 规律 ， 没 有 词 束 无 所 谓 组 
词 成 名 ， 因 而 也 就 无 所 谓 句 法 。 语 义 是 语言 中 的 概念 与 概念 之 间 的 天 
系 ， 而 词 是 表达 概念 的 ， 没 有 词 也 就 无 所 谓语 义 研 究 。 因 此 ， 词 是 汉语 
语法 和 语义 研究 的 中 心 问 题 ， 也 是 汉语 上 自然 语言 处 理 的 关键 问题 。 男 
外 ， 词 的 问题 也 关系 到 智能 化 计算 机 的 研制 。 智 能 化 计算 机 具有 联想 、 
判断 、 推 理 的 功能 ， 而 联想 、 判 新 和 推理 都 是 要 以 词 为 基本 单位 的 句子 
来 表达 的 ， 不 研究 词 的 问题 ， 智 能 化 计算 机 的 研究 就 会 成 为 空谈 。 




















书面 汉语 的 词 是 由 汉字 构成 的 。 汉 字 的 构 词 极 为 灵活 ， 计 算 机 在 对 
一 串 连 续 的 汉字 字符 进行 切 词 时 ， 可 能 会 有 多 种 切 词 方式 ， 负 种 使 计算 
机 举 棋 不 定 ， 误 入 迷津 ， 造 成 切 词 的 失败 ， 或 者 得 出 错误 的 切 分 结 
因此 ， 我 们 必须 重视 计算 机 上 自动 切 词 方法 的 研究 。 





2. 汉语 书面 文本 目 动 切 词 的 主要 方法 


目前 汉语 书面 文本 目 动 切 词 方法 主要 有 以 下 几 种: 


e 最 大 匹配 法 〈Maximum Matching Method， 简 称 MM 法 ) : 在 计 
算 机 中 存放 一 个 已 知 的 词 表 ， 这 个 词 表 叫 做 底 表 ， 从 被 切 分 的 语 料 中 ， 
按 给 定 的 方 同 顺序 截取 一 个 定 长 的 字符 串 ， 通 利 为 6 至 8 个 汉字 ， 这 个 字 
符 串 的 长 度 ， 叫 做 最 大 词 长 。 把 这 个 具有 最 大 词 长 的 字符 串 与 底 表 中 的 
词 相 匹配 ， 知 匹配 成 功 ， 则 可 确定 这 个 字符 串 为 词 ， 计 算 机 程序 的 指针 
癌 后 移动 与 给 定 最 大 词 长 相应 个 数 的 汉字 ， 继 续 进 行 匹 配 ; 否则 ， 则 把 
该 字符 串 逐 次 减 一 ， 再 与 底 表 中 的 词 进行 匹配 ， 直 到 成 功 为 止 。 




















MM 法 的 原理 简单 ， 易 于 在 计算 机 上 实现 ， 时 间 复 杂 度 也 比较 低 。 
但 是 ， 节 大 词 长 的 长 度 比较 难于 确定 ， 如 果 定 得 太 长 ， 则 匹配 时 花费 的 
时 间 葡 多， 算法 的 时 间 复 杂 度 明显 提高 ， 如 宁 定 得 太 短 ， 则 不 能 切 分 长 
度 超 过 它 的 词 ， 导 致 切 分 正确 率 的 降低 。 





e 逆 问 最 大 匹配 法 (Reverse Maximum Matching Method， 简 称 
RMM 法 ) : 这 种 方法 的 基本 原理 与 MM 法 相同 ， 不 同 的 是 切 词 时 的 扫 
搬 方 同 。 如 果 MM 法 的 扫描 方 旬 是 从 左 到 右 取 字符 串 进行 东 配 ， 则 
RMM 法 的 扫描 方向 就 是 从 右 到 左 取 字符 串 进 行 上 匹配。 实验 表明 ，RMM 
法 的 切 词 正 确 率 比 MM 法 更 高 一 些 。 但 是 ，RMM 法 要 求 配置 逆序 的 切 
词 词典 ， 这 样 的 词典 与 人 们 的 语言 习惯 不 相符 合 ， 修 改 和 维护 都 不 太 方 
便 。 











e 逐 词 过 历 匹 配 法 : 这 种 方法 是 把 词典 中 存放 的 词 按 由 长 到 短 的 顺 
序 ， 逐 个 与 待 切 词 的 语 料 进 行 匹配 ， 直 到 把 语 料 中 的 所 有 的 词 都 切 分 出 
来 为 止 。 由 于 这 种 方法 要 把 在 词典 中 的 每 一 个 词 都 匹配 一 过， 需要 花费 
很 多 时 间 ， 算 法 的 时 间 复 杂 度 相应 增加 ， 切 词 的 速度 较 慢 ， 切 词 的 效率 








e 双向 扫描 法 : 分 别 用 MM 法 和 RMM 法 进行 正 向 和 逆向 的 扫描 和 初 
步 的 切 分 ， 并 将 用 MM 法 初步 切 分 的 结果 与 用 RMM 法 初步 切 分 的 结果 
进行 比较 ， 如 果 两 种 结果 一 致 ， 则 判定 切 分 正确 ， 如 果 两 种 结果 不 一 
致 ， 则 判定 为 疑点 。 这 时 ， 或 者 结合 上 下 文 有 关 的 信息 ， 或 者 进行 人 工 
干预 ， 选 取 一 种 切 分 为 正确 的 切 分 ， 由 于 要 做 双 疝 扫描 ， 时 间 复 杂 度 增 
加 ， 而 且 ， 为 了 使 切 词 词典 能 够 同时 文 持 正 向 和 逆向 两 种 顺序 的 匹配 和 
搜索 ， 词 典 的 结构 比 一 般 的 切 词 词典 要 复杂 得 多 。 





e TIEL (Optimum Matching Method， 简 称 OM 法 ) : 在 切 词 





词典 中 ， 按 词 的 出 现 频率 的 大 小 排列 词 条 ， 高 频率 的 词 排 在 前 ， 低 频率 
的 词 排 在 后 ， 从 而 缩短 查询 切 词 词典 的 时 间 ， 加 快 切 词 的 速度 ， 使 切记 
达到 最 佳 的 效果 。 这 种 切 词 方法 对 于 切 词 的 算法 没有 什么 改进 ， 只 是 改 
进 了 切 词 词典 的 排列 顺序 ， 它 虽然 降低 了 切 词 的 时 间 复杂 度 ， 却 没有 提 
高 切 词 的 正确 率 。 


e 设立 切 分 标志 法 : 在 书面 汉语 中 存在 的 切 分 标志 有 两 种 : 一 种 是 
目 然 的 切 分 标志 ， 如 标点 符号 ， 词 不 能 跨越 标点 符号 而 存在 ， 标 点 符号 
必定 是 词 的 边界 之 所 在 ， 必 一 种 是 非 上 自然 的 切 分 标志 ， 如 只 能 在 词 首 出 
现 的 词 首 字 、 只 能 在 词尾 出 现 的 词尾 字 、 没 有 构 词 能 力 的 单 音节 单纯 
词 、 多 音节 单纯 词 、 拟 声 词 等 ， 词 显然 也 不 能 跨越 这 些 标志 而 存在 ， 它 
们 也 必定 是 词 的 边界 之 所 在 。 如 果 我 们 搜集 了 大 量 的 这 种 切 分 标志 ， 切 
词 时 ， 先 找 出 切 分 标志 ， 就 可 以 把 句子 切 分 成 一 些 较 短 的 字段 ， 然 后 再 
用 MM 法 或 RMM 法 进一步 把 词 切 分 出 来 。 使 用 这 种 方法 切 词 ， 要 额外 
消耗 时 间 来 扫描 切 分 标志 ， 还 要 花费 存 迪 空 间 来 存放 非 上 自然 的 切 分 标 
志 ， 使 切 词 算法 的 时 间 复 杂 度 和 空间 复杂 上 度 都 大 大 增加 了 ， 而 切 词 的 正 
确 率 却 不 能 提高 。 所 以 ， 采 用 这 种 方法 的 目 动 切 词 系统 不 多 。 























e 有 和 穷 多 级 列举 法 : 这 种 方法 把 现代 汉语 中 的 全 部 词 分 为 两 大 类 : 
一 类 是 开放 词 ， 如 名 词 、 动 词 、 形 容 词 等 ， 它 们 的 成 员 儿 乎 是 无 穷 的 ， 
为 一 类 是 闭锁 词 ， 如 连词 、 助 词 、 叹 词 等 ， 它 们 的 成 员 是 可 以 一 一 枚 举 
的 。 切 词 时 ， 先 切 出 具有 特殊 标志 的 字符 串 ， 如 阿拉 伯 数 字 、 拉 本 字母 
等 ， 再 切 出 可 枚 举 的 闭锁 词 ， 最 后 再 逐 级 切 出 开放 词 。 这 是 一 种 完全 立 
足 于 语言 学 的 切 词 方法 ， 在 计算 机 上 实现 起 来 还 有 困难 。 











e 联想 一 回 蛮 法 CAssociation-Backtracking Method， 人 简称 AB 法 ) : 
这 种 方法 要 求 建立 三 个 知识 库 一 一 特征 词 词 亩 、 实 词 词 库 和 规则 库 。 首 
先 将 待 切 分 的 汉字 字符 串 序 列 按 特 征 词 词 库 分 割 为 知 干 子囊 ， 子 串 可 以 











是 词 ， 也 可 以 是 由 几 个 词组 合 而 成 的 词 群 ， 然 后 ， 再 利用 实 词 词 库 和 规 
则 库 将 词 群 再 细 分 为 词 。 切 词 时 ， 要 利用 一 定 的 语法 知识 ， 建 立 联想 机 
制 和 回溯 机 制 。 联 想 机 制 由 联想 网 络 和 联想 推理 构成 ， 联 想 网 络 描述 每 
个 虚词 的 构 词 能 力 ， 联 想 推 理 利 用 相应 的 联想 网 络 来 判定 所 描述 的 虚词 
完 竟 是 单独 成 词 还 是 作为 其 他 词 中 的 构 词 成 分 。 回 渊 机 制 主要 用 于 处 理 
肢 义 句子 的 切 分 。 联 想 一 回调 法 虽然 增加 了 算法 的 时 间 复 杂 度 和 空间 复 
杂 度 ， 但 是 这 种 方法 的 切 词 正确 率 较 高 ， 是 一 种 行 之 有 效 的 方法 。 











e 基于 词 频 统计 的 切 词法 : 这 种 方法 利用 词 频 统计 的 结果 来 帮助 在 
切 词 过 程 中 处 理 歧义 切 分 字段 。 例 如 ，AB 是 一 个 词 ，BC 是 另 一 个 词 ， 
如 果 词 频 统计 的 结果 说 明了 BC 的 出 现 频率 大 于 AB 的 出 现 频率 ， 那 么 ， 
在 处 理 歧义 切 分 字段 ABC 时 ， 就 把 BC 作为 一 个 单词 ，A 作 为 一 个 单词 ， 
而 排斥 AB 作 为 一 个 单词 的 可 能 性 ， 也 就 是 把 ABC 切 分 为 A/BC. 这 种 方法 
的 缺点 是 ， 由 于 只 考虑 词 频 ， 出 现 频率 较 低 的 词 总 是 被 错误 地 切 分 。 


e 基于 期 望 的 切 词 法 : 这 种 方法 认为 ， 一 个 词 的 出 现 ， 它 后 面 紧 随 
的 词 就 会 有 一 种 期 望 ， 根 据 这 种 期 望 ， 在 词 表 中 找 出 所 对 应 的 词 ， 从 而 
完成 切 分 。 这 种 方法 增加 了 切 词 的 空间 复杂 上 度 ， 但 再 一 定 程度 上 提高 
切 词 的 正确 率 。 





此 外 ， 近 来 提出 的 基于 专家 系统 的 切 词法 和 基于 神经 网 络 的 切 词 
法 ， 利 用 人 工 乔 能 的 方法 来 进行 汉语 书面 语 的 自动 切 分 ， 也 取得 了 较 好 
的 成 绩 。 





上 述 切 词 方法 中 ，MM 法 、RMM 法 和 逐 词 遍历 法 是 最 基本 的 机 械 
性 的 切 词 方法 ， 其 他 的 几 种 方法 ， 都 不 是 纯粹 意义 上 的 机 械 性 的 切 词 方 
法 。 在 实际 的 汉语 书面 语 自动 切 词 系统 中 ， 一 般 都 是 几 种 方法 配合 使 
用 ， 从 而 达到 最 理想 的 切 词 效 果 。 


3. Ex XU) ap Ex 


书面 汉语 目 动 切 词 的 难点 是 “ 卜 义 切 分 字段 ”( 为 了 行文 的 方便 ， 本 
书 中 有 时 也 简称 为 “< 收 义 字段 ") 的 处 理 。 我 国学 者 在 这 方面 进行 了 比较 
深入 的 探讨 。 








北京 航空 航天 大 学 梁 南 元 发 现 ， 在 目 动 切 词 的 过 程 中 ， 只 是 在 上 义 
切 分 字段 时 才 有 可 能 发 生 错误 的 切 分 。 而 歧义 切 分 字段 从 构成 形式 上 可 
分 为 两 类 : 一 类 是 交集 型 歧义 切 分 字段 ， 一 类 是 多 义 组 合 型 收 义 切 分 字 
段 。 





在 字段 S=al ...aj .. b, …bj .…C1 .…Ck 中 ， 如 果 al aj ...by …bj 和 bi 
obj sso …ck 分 别 都 构成 词 ， 则 字段 S 成 称 为 交集 型 蚊 义 切 分 字段 ， 其 
中 bl .…bj 称 为 交 段 。 例 如 ， 在 字段 “大 平淡? 中,“ 太 平 2 和 “平淡 ?分 别 成 
i, “ 平 " 为 交 段 ， 所 以 ,“ 太 平淡 ?是 交集 型 歧义 切 分 字段 。 


在 字段 S=al ...a; ...b, .…b; H, Ra, …ai s b, .…b; 和 S 三 者 都 分 别 
成 词 ， 则 字段 S 称 为 多 义 组 合 型 歧义 切 分 字段 。 例 如 ， 在 字段 “ 烤 白 
ZB, "Mí". A aks ELE" = EAT». ALA, BAR EL 
义 组 合 型 收 义 切 分 字段 。 


梁 南 元 的 上 述 发 现 是 对 汉语 自动 切 词 理论 的 重要 贡献 。 这 个 发 现 对 
在 汉语 切 词 过 程 中 出 现 的 形形色色 的 错误 切 分 作 了 科学 的 概括 。 


北京 师范 大 学 何克抗 等 进一步 分 机 了 这 两 种 歧义 切 分 字段 产生 的 原 
因 和 性 质 。 





他 们 认为 ， 交 集 型 歧义 切 分 字段 是 由 词 与 词 之 间 的 交叉 组 合 产生 
的 。 在 字段 S= a, .…ai ...b, bj -C1 .…Ck 中 ， 由 于 交 段 bl .…bj 既 可 与 ai 
a 组 合成 词 ， 又 能 与 cj ...c, 组 合成 词 ， 形 成 了 交叉 组 合 ， 才 产生 歧义 
切 分 。 从 产生 的 根源 上 看 ， 有 下 列 几 种 不 同 的 类 型 : 





(1) 名 词 + 名 词 


例如 ， 在 句子 “用 树 形 图 形式 加 以 描述 ”中 ， 卜 义 字 段 “ 图 形式 ”是 由 
名 词 “ 图 ”与 名 词 “ 形 式 ” 之 间 的 交叉 组 合 产生 的 一 一 “图 形 ”+“ 形 式 ”。 事 实 
E, “图形 ”是 歧义 词 ， 它 是 卜 义 字段 “图 形式 ”在 给 定 句 子 中 错误 地 切 分 
出 来 的 片段 ,，“ 形 式 ” 是 非 歧 义 词 ， 它 是 卜 义 字段 “图 形式 ”在 给 定 句 子 
中 ， 按 正确 的 切 分 方式 切 分 出 来 的 片段 。 








(2) 动词 + 名 词 


例如 ， 在 句子 “研究 生命 的 本 质 "中 ， 歧 义 字段 “研究 生命 "是 由 动 
词 “研究 与 名 词 “生命 "之 间 的 交叉 组 合 产生 的 一 “研究生 ”( 歧 义 词 ) 
+ 生命 ”( 非 歧义 词 ) 。 


(3) 形容 词 + 名 词 


BIEN, FEE ARRIR F, ENTR ARR EAER 
tal“ A? 45 d gl “ARG” Z TAY AN 20 A EJ“ AR” CR Xi) +“ 天 
85" GERNI) 。 





(4) 介词 + 名 词 


例如 ， 在 句子 让 位 移 等 于 50 厘 米 "中 ， 歧 义 字段 让 位 移 " 是 由 介 
词 “ 让 ”与 名 词 “位 移 " 之 间 的 交叉 组 合 产生 的 一 “让 位 ”( 歧 义 词 )》 + 位 





移 ”( 非 歧义 词 ) 。 
(5) 连词 + 名 词 


例如 ， 在 短语 “独立 自主 和 平等 互利 的 原则 中， 歧义 字段 和平 
等 "是 由 连词 < 和 "与 名 词 “ 平 等 ”的 交叉 组 合 产生 的 一 “和 平 ”( 歧 义 词 ) 
+ 平等 ”( 非 歧义 词 ) 。 





(6) 副词 + 形容 词 


例如 ， 在 句子 “这 本 小 说 的 情节 太平 淡 了 ”中 ， 歧 义 字段 < 太平 淡 " 是 
副词 “< 太 ” 与 形容 词 “平淡 "的 交叉 组 合 产生 的 一 “太平 ”( 歧 义 词 ) 
HOBIE” (AEE Via) 。 


(7) 助词 + 形容 记 


例如 ， 在 短语 “对 这 种 现象 的 确切 描述 ”中 ， 卜 义 字 段 “ 的 确切 ”是 由 
助词 “的 ”与 形容 词 “ 确 切 ” 的 交叉 组 合 产 生 的 一 一 “的 确 ”( 上 收 义 词 )+“ 确 
Wy” CARB CH) 。 


(8) 名 词 + 连词 


例如 ， 在 句子 “社会 需求 和 生产 水 平 有 矛盾 "中 ， 必 义 字段 “需求 
和 ”是 由 名 词 “需求 ”与 连词 “和 ”的 交叉 组 合 产 生 的 一 一 “需求 ”( 非 收 义 
词 ) +“ 求 和 ”( 歧 义 词 ) 。 








(9) 动词 + 介词 


例如 ， 在 句子 “他 们 看 中 和 日 本 人 做 生意 的 机 会 "中 ， 歧 义 字 段 “看 
中 和 ?是 由 动词 “看 中 ”与 介词 “和 ?的 交叉 组 合 产生 的 一 一 “看 中 ”(〈 非 歧义 





iD +“ 中 和 ”( 歧 义 词 ) 。 


由 以 上 例子 可 以 看 出 ， 交 集 型 歧义 切 分 字段 81 .…a .bb cl e 
ck 的 交 段 bl ...b; 与 其 后 继 字 串 ci .…ck 所 组 成 的 非 歧 义 词 的 词类 ， 可 以 
从 歧义 切 分 字段 本 里 提供 出 来 。 例 如 ， 在 卜 义 切 分 字段 “日 天 笋 ”中 ， 交 
段 为 “天 ”， 它 的 后 继 字 段 “ 急 ”组 成 的 非 层 义 词 “ 天 和 殷 ”"， 其 词类 为 名 词 。 
BOF RA ABT GEE Sf AEB “TRS” Ra. ARR A 
分 字段 al .di xD es Dj .. Cy Ck 的 交 段 bi bj 与 其 前 趋 字 串 ai .di 所 
组 成 的 非 歧 义 词 的 词类 ， 也 可 以 从 歧义 切 分 字段 本 身 提供 出 来 。 例 如 ， 
在 歧义 切 分 字段 “需求 和 ”中 ， 交 上段 为 “ 求 "， 它 与 前 趋 字 串 “ 需 ”组 成 非 收 
义 词 “需求 ”， 其 词类 为 名 词 ， 靶 义 切 分 字段 本 号 也 为 我 们 提供 了 非 靶 义 
词 “ 需 求 ” 的 词类 信息 。 交 集 型 政 义 切 分 字段 可 以 为 我 们 提供 非 政 义 切 分 
的 特征 信息 ， 这 是 交集 型 卜 义 切 分 字段 非常 宝 吐 而 重要 的 特点 。 根 据 这 
个 特点 ， 我 们 可 以 事先 为 汉语 词汇 中 的 每 个 词 建立 词法 知识 库 ， 并 在 该 
知识 库 中 为 可 能 产生 皮 义 切 分 的 词 条 加 上 卜 义 标志 和 皮 义 类 型 编号， 这 
样 ， 在 实际 切 分 歧义 字段 时 ， 只 要 利用 该 字段 中 的 交 段 bl ...b; 与 其 后 继 
Hcc, (或 其 前 趋 字 串 a a) 所 组 成 的 非 歧义 词 的 已 知 词类 信 
轧 ， 再 通过 适当 的 逻辑 推理 ， 就 可 以 对 这 类 歧义 切 分 字段 作出 唯一 正确 
的 切 分 。 























例如 ， 在 上 述 第 (3) MAAR IA FECA RIG’, CX 
组 合 产生 的 此 义 词 是 “白天 ”， 区 段 是 “< 天 ”， 该 交 段 的 后 继 字 串 为 " 鹅 ”， 
二 者 组 成 非 监 义 词 “ 天 狼 ?， 并 已 知 其 词类 信息 为 名 词 。 如 果 在 词法 知识 
库 中 ， 对 歧义 词 “ 白 天 ?加 上 歧义 标志 和 相应 的 歧义 类 型 编号 ， 并 建立 如 
下 的 规则 : 





如 果 交 段 与 其 后 继 字 串 组 成 名 词 ， 则 将 该 歧义 词 的 首 字 单 切 ， 合 


则 ， 确 认 该 歧义 词 为 词 。 


于 是 ， 根 据 卜 义 词 “ 白 天 ”的 歧义 类 型 编写 调用 上 述 规 则 ， 并 利用 词 
法 知识 库 中 有 关 该 收 义 切 分 字段 的 交 段 “天 ”与 其 后 继 子 串 “ 鹅 ”组 成 词 的 
知识 ， 检 查 这 个 词 是 否 为 名 词 ， 并 进行 逻辑 推理 ， 就 可 以 确定 ， 在 切 分 
BF BCAA IN, DOR BOCH AR INE ESA", “AAR” Dy 
Wa A“ AAR”. REMI I a FBO ARG” TE DT RE ERAY 


TP 





又 如 ， 在 上 述 第 〈8) MAA CIA FBC RA? A, KEX 
ZH AE BC Sia] ERA”, AC BOER”, ZC BUN AE FB Ait”, 
二 者 组 成 非 层 义 词 “需求 "并 已 知 其 词类 信息 为 名 词 。 如 果 在 词法 知识 
库 中 ， 对 歧义 词 “ 求 和 ?加 上 上 芝 义 标志 和 相应 的 歧义 类 型 编号 ， 并 建立 如 
下 的 规则 : 








如 果 交 段 与 其 前 趋 字 串 组 成 名 词 ， 则 将 该 歧义 词 的 尾 字 单 切 ， 合 
则 ， 确 认 该 歧义 词 为 词 。 


于 和 是， 根据 此 义 词 “ 求 和 ?的 歧义 类 型 编号 ， 调 用 上 述 规则 ， 在 词法 
知识 库 中 查询 ， 得 知 该 卜 义 切 分 字段 的 交 段 “ 求 ”与 其 前 趋 字 串 “ 需 ”所 组 
成 的 词 为 名 词 ， 进 行 逻辑 推理 ， 就 可 以 确定 ， 在 切 分 歧义 字段 “需求 
和 ”时 ， 应 将 卜 义 词 “ 求 和 ”的 尾 字 单 切 , “需求 和 ”应 切 分 为 “需求 /和 ”。 
这 是 对 监 义 切 分 字段 “需求 和 ?做 出 的 唯一 正确 的 切 分 。 














对 于 其 他 类 型 的 交集 型 监 义 切 分 字段 ， 不 难 建立 相应 的 规则 ， 并 为 
其 中 的 上 琉 义 词 设置 相应 的 歧义 类 型 编号 ， 然 后 利用 词法 知识 库 中 有 关 词 
类 信息 的 知识 ， 进 行 类 似 的 逻辑 推理 ， 就 可 以 做 出 唯一 正确 的 切 分 。 








由 于 对 交集 型 蚊 义 切 分 字段 的 正确 切 分 ， 仅 只 需要 关于 词类 的 信 





恩 ， 所 以 ， 可 以 把 这 类 歧义 切 分 字段 ， 从 性 质 上 划 为 “与 词类 有 关 的 导 
义 切 分 字段 ”>， 简 称 为 “词法 歧义 字段 "。 





多 义 组 合 型 歧义 切 分 字段 比较 复杂 ， 这 种 歧义 切 分 字段 是 由 词 与 词 
之 间 的 串联 组 合 产生 的 。 在 字段 S=ai .…a; .…bi .…b; H HFa .ai , by 
by 和 S 三 者 都 能 分 别 成 词 ， 字 串 al eap 与 字 串 bl b 形成 了 串联 组 
合 ， 才 产生 歧义 切 分 。 从 产生 的 根源 上 看 ， 有 下 列 几 种 不 同 的 类 型 ， 





(1) 量词 + 名 词 


例如 ， 在 句子 “一 阵风 吹 过 来 了 ”中 ， 歧 义 切 分 字段 “阵风 ?和 古 由 量 
词 “ 阵 ?和 名 词 “ 风 ”的 串联 组 合 产生 的 。 


(2) 介词 + 名 词 








例如 ， 在 句子 “请 把 手 抬 高 一 点 儿 ” 中 ， 层 义 切 分 字段 < 把手” 是 由 介 
词 “ 把 ”和 名 词 “ 手 ”的 串联 组 合 产生 的 。 


(3) 动词 + 名 词 








例如 ， 在 句子 他 喜欢 吃 烤 白 苗 " 中 ， 歧 义 切 分 字段" 烤 白 昔 " 是 由 动 
词 < 烧 * 和 名 词 “ 白 慕 * 的 串联 组 合 产生 的 。 





(4) 名 词 + 方位 词 





例如 ， 在 句子 “他 骑 在 马上 ”中 ， 歧 义 切 分 字段 < 马上 "是 由 名 
词 “ 马 * 和 方位 词 "上 ”的 串联 组 合 产生 的 。 


(5) 名 词 + 动 词 


(Sa) : 例如 ， 在 句子 “语言 学 起 来 并 不 十 分 容易 ”中 ， 监 义 切 分 字 
段 “ 语 言 学 ?是 由 名 词 “语言 "? 和 动词 “学 ”的 串联 组 合 产生 的 。 





(5b) : 例如 ， 在 句子 “学 生 会 兴奋 得 手舞足蹈 ?中 ， 监 义 切 分 字 
段 “ 学 生 会 ”是 由 名 词 “ 学 生 * 和 动词 “会 ”的 串联 组 合 产 生 的 。 


(5c) : 例如 ， 在 句子 “乒乓 球拍 卖 完 了 ”中 ， 上 收 义 切 分 字段 “乒乓 
球 担 ?是 由 名 词 “ 乒 乓 球 ? 和 动词 “ 拍 的 串联 组 合 产生 的 。 





(500 : 例如 ， 在 句子 “美国 会 采取 措施 提高 工业 竞争 力 ” 中 ， 歧 义 
切 分 字段 “美国 会 ”是 由 名 词 “ 美 国 ”? 和 动词 “会 ”的 串联 组 合 产生 的 。 











(6) 方位 词 + 动 词 


例如 ， 在 句子 “他 在 庄 稳 地 里 间 麦 苗 ? 中 ， 歧 义 切 分 字段 < 里 间 ?” 是 由 
方位 词 “ 里 ?和 动词 “ 间 ” 的 串联 组 合 产生 的 。 


(7) 副词 + 动词 


例如 ， 在 句子 “他 将 来 北京 探亲 ”中 ， 歧 义 切 分 字段 “将 来 "是 由 副 
词 “ 将 ?和 动词 “来 ”的 串联 组 合 产生 的 。 


(8) 助词 + 动词 


(8a) : 例如， 在 句子 “他 学 会 了 解数 学 难题 "中 ， 歧 义 切 分 字 
段 < 了 解 * 是 由 助词 < 了 ”和 动词 “ 解 "的 串联 组 合 产生 的 。 


(8b) : 例如 ， 在 句子 “只 要 努力 地 学 就 可 以 学 会 ?中 ， 攻 义 切 分 字 
段 “ 地 学 ”是 由 助词 “地 ”和 动词 “学 ”的 串联 组 合 产 生 的 。 


(9) 连词 + 副词 





例如 ， 在 句子 “日 本 保留 和 疝 使 用 的 古代 庙宇 已 经 不 多 了 ?中 ， 歧 义 
切 分 字段 “< 和尚 ?是 由 连词 “和 ?与 副词 “ 沿 ” 的 串联 组 合 产生 的 。 


由 上 上 所 述 可 以 看 出 ， 在 多 义 组 合 型 歧义 切 分 字段 中 ， 监 义 字 段 就 是 
一 个 歧义 词 ， 而 非 歧义 词 被 包含 在 歧义 词 当 中 。 例 如 ， 歧 义 字 段 “ 语 言 
学 ?同时 也 就 是 一 个 歧义 词 ， 而 非 歧 义 词 “语言 ?和 "学 ? 则 被 包含 在 歧义 
词 “语言 学 ?中 。 在 这 种 情况 下 ， 很 难 根据 多 义 组 合 型 歧义 切 分 字段 本 刁 
来 获得 非 监 义 词 的 特征 信息 ， 只 有 跳出 多 义 组 合 型 监 义 切 分 字段 目 身 的 
(ER, BSR RS RMT BES EB AINA, A EACH 
正确 的 切 分 。 这 说 明 ， 为 了 对 多 义 组 合 型 上 收 义 切 分 字段 本 身 做 出 唯一 正 
确 的 切 分 ， 不 能 只 考察 收 义 字段 内 部 的 情况 ， 还 必须 考 凤 皮 义 字 段 与 其 
前 后 字 串 之 间 的 关系 。 而 在 交集 型 歧义 切 分 字段 中 ， 监 义 字 段 本 吴 就 可 
以 给 我 们 提供 非 坚 义 切 分 的 特征 信息 ， 因 此 ， 多 义 组 合 型 歧义 切 分 字段 
的 上 自动 切 分 比 交 集 型 监 义 切 分 字段 的 目 动 切 分 要 难得 多 。 

















有 些 歧义 切 分 字段 具有 二 重 性 。 例 如 ， 在 例句 “乒乓 球拍 卖 完 
了 ?中 ， 由 名 词 “ 乒 乓 球 ” 和 动词 “ 拍 串 联 组 合 而 产生 出 多 义 组 合 型 歧义 
切 分 字段 < 乒乓 球拍 >， 而 “乒乓 球拍 ?又 与 动词 “拍卖 "交叉 组 合 而 产生 区 
集 型 歧义 切 分 字段 “乒乓 球拍 卖 ”， 这样 一 来 ， 在 “乒乓 球拍 卖 ” 这 个 字段 
中 ， 妹 有 多 义 组 合 型 上 收 义 切 分 字段 ， 义 有 交集 型 上 收 义 切 分 字段 。 对 于 这 
样 的 具有 二 重 性 的 皮 义 切 分 字段 ， 切 分 时 也 不 能 只 考虑 字段 本 里 提供 的 
信息 ， 还 应 该 考虑 该 字段 与 其 前 趋 字 串 和 后 继 字 捉 的 关系 。 











为 了 正确 地 切 分 多 义 组 合 型 歧义 切 分 字段 ， 可 以 利用 前 趋 字 串 和 后 
继 字 串 的 名 法、 语义 、 语 用 三 个 方面 信息 。 








第 一 ， 句 法 信息 : 有 些 多 义 组 合 型 卜 义 切 分 字段 与 其 前 趋 字 串 和 后 
继 字 串 之 间 ， 存 在 着 密切 的 搭配 关系 ， 这 时 惑 可 以 利用 有 关 的 句法 信息 








得 到 正确 的 切 分 。 





Bill C1) 中 的 歧义 切 分 字段 “阵风 ”是 由 量词 “ 阵 * 和 名 词 “ 风 ”的 串联 组 
合 产 生 的 ， 按 非 歧义 切 分 时 的 词 间 搭 配 关 系 ， 量 词 之 前 应 该 有 数 词 ， 因 
此 ， 可 以 先 在 词法 知识 库 中 对 收 义 词 “阵风 ”加 上 歧义 标志 与 相应 的 歧义 
类 型 编号 ， 并 建立 如 下 的 规则 : 











如 果 上 靶 义 字段 的 直接 前 趋 字 串 是 数 词 ， 则 歧义 字段 的 首 段 单 切 ， 合 
则 ， 该 歧义 字段 成 词 。 


然后 根据 “阵风 ”的 歧义 类 型 编号 调用 这 条 规则 ， 并 利用 词法 知识 库 
中 的 有 关 该 字段 前 趋 字 串 的 信息 ， 进 行 逻辑 推理 ， 就 可 以 做 出 唯一 正确 
的 切 分 。 





例 (2) 中 的 歧义 切 分 字段 “把 手 ” 是 由 介词 “把 "和 名 词 “ 手 ”的 串联 组 
合 而 产生 的 ， 按 非 琉 义 切 分 时 的 词 间 搭配 关系 ， 该 攻 义 字段 的 后 继 字 串 
中 必须 有 及 物 动 词 ， 根 据 这 样 的 句法 知识 建立 相应 的 规则 ， 再 使 用 与 上 
述 类 似 的 推理 方法 ， 就 可 以 作出 唯一 正确 的 切 分 。 








Bil (3) 中 的 监 义 切 分 字段 " 烤 白 莫 ?是 由 动词 “ 烤 ” 和 名 词 “ 白 昔 ” 的 串 
联 组 合 而 产生 的 ， 按 非 坚 义 切 分 时 的 词 间 搭配 关系 ， 该 歧义 字段 的 前 趋 
字 串 中 应 该 有 动词 ， 根 据 这 样 的 句法 知识 建立 相应 规则 ， 再 使 用 与 上 述 
类 似 的 推理 方法 ， 束 可 以 得 到 唯一 正确 的 切 分 。 








f| (4) 中 的 监 义 切 分 字段 < 马上 ?是 由 名 词 “ 马 ?和 方位 词 “ 上 ?串联 组 
合 而 产生 的 ， 按 非 靶 义 切 分 时 的 词 间 搭配 关系 ， 该 攻 义 字段 的 前 趋 字 串 
中 应 该 有 介词 ， 根 据 这 样 的 句法 知识 建立 相应 的 规则 ， 再 使 用 类 似 的 推 
理 方法 ， 就 可 以 得 到 唯一 正确 的 切 分 。 











类 似 地 ， 切 分 例 C50 中 的 歧义 字段 “语言 学 ?时 ， 要 使 用 * 该 字段 的 
后 继 字 串 中 应 有 趋向 动词 或 助词 ?这 样 的 句法 知识 ;， 切 分 例 C60. HP BUS 
义 字 段 “ 里 间 ” 时 ， 要 使 用 “该 字段 的 前 趋 字 串 中 应 有 介词 ”这 样 的 句法 知 
VAs 切 分 例 (7) 中 的 歧义 字段 “将 来 *? 时 ， 要 使 用 “该 字段 的 前 趋 字 串 中 
应 有 人 名 或 人 称 代 词 * 这 样 的 句法 知识 ;， 切 分 例 (8〉 中 的 歧义 字段 “地 
本 
法 知识 。 根 据 这 些 句法 知识 建立 相应 的 切 分 规则 ， 通 过 一 定 的 逻辑 推 
理 ， 就 可 以 实现 对 这 些 歧义 字段 的 正确 切 分 。 














第 二 ， 语 义 信息 : Bl (Sb) 中 歧义 切 分 字段 “学生会 "是 由 名 词 “ 学 
生 ” 与 动词 “会 ?串联 组 合 产生 的 ， 例 〈5b) 可 以 有 两 种 切 分 结果 : 


学 生 / 会 /兴奋 /得 /手舞足蹈 ” 
“学 生 会 /兴奋 /得 /手舞足蹈 ” 


这 两 种 切 分 结果 在 词类 与 句法 结构 上 都 十 分 相似 ， 因 此 ， 仅 仅 利 用 
词法 和 句法 的 知识 ， 难 以 对 这 两 种 切 分 结果 做 出 正确 的 判别 ， 也 就 难以 
作 做 出 正确 的 切 分 。 这 时 ， 就 须要 利用 语义 方面 的 知识 了 。 从 语义 上 来 
看 ， 动 词 “兴奋 ”的 义 项 中 ， 要 求 动作 的 发 出 者 应 具有 “人 ”这 个 义 率 ， 在 
名 词 “ 学 生 会 ”的 义 项 中 不 具有 这 个 义 素 ， 而 在 名 词 “学 生 ” 的 义 项 中 则 具 
有 这 个 义 素 ， 利 用 这 样 的 语义 知识 ， 我 们 建立 如 下 的 语义 规则 : 


如 果 歧 义 切 分 字段 后 继 动 词 的 义 项 中 含有 动作 发 出 者 为 "人 ”这 
素 ， 则 上 攻 义 字段 的 尾 字 单 切 ， 人 否则 ， 该 到 义 字段 成 词 。 





在 目 动 切 分 时 ， 人 字段 "学生会 ”的 蚊 义 类 型 编号 ， 调 用 
这 条 语义 规则 ， 进 行 逻辑 推理 ， 就 可 以 得 到 如 下 正确 的 切 分 : 


“学 生 / 会 /兴奋 /得 /手舞足蹈 ” 


例 〈8a) 中 上 义 切 分 字段 < 了 解 ? 是 由 助词 “了 ”和 动词 “ 解 2 的 串联 组 
合 而 产生 的 ， 例 (8a) 可 以 有 两 种 切 分 结果 : 


“他 /学 会 /了 / 解 /数学 /难题 ” 
“他 /学 会 /了 解 /数学 /难题 ” 


这 两 种 切 分 结果 的 词类 和 人 句法 结构 都 十 分 相似 ， 仅 只 根据 词法 和 句 
法 知识 ， 难 以 得 到 正确 的 切 分 ， 但 是 根据 语义 分 析 可 知 ， 动 词 “ 解 ”的 义 
项 中 ， 要 求 宾 语 应 该 具有 “数学 公式 ”或 “扣子 ”这 样 的 义 系 ， 而 动词 “了 
解 ” 对 宾语 则 没有 这 样 的 要 求 ， 由 于 例 (8a》〉 中 作怪 语 的 “数学 难题 * 符 
合 动 词 “ 解 ”* 的 义 项 的 要 求 ， 由 此 可 以 判定 前 一 种 切 分 是 正确 的 ， 从 而 也 
就 排除 了 第 二 种 切 分 。 








Ha, AMAR: Bl (Sc) 中 的 歧义 切 分 字段 “乒乓 球拍 *， 仅 只 根 
据 词法 、 旬 法 和 语义 知识 ， 都 不 足以 判断 卖 完 的 东西 究竟 是 “乒乓 球 * 还 
是 “乒乓 球拍 "， 这 时 ， 就 得 根据 语言 交际 的 具体 环境 的 语 用 方面 的 知 
识 ， 才 能 决定 究竟 什么 才 是 正确 的 切 分 。 








Bl (Sd) 中 的 攻 义 切 分 字段 “美国 会 >， 仅 只 根据 词法 、 句 法 和 语义 
知识 ， 也 不 足以 判断 采取 措施 提高 工业 竞争 力 的 是 “类 国 ” 还 是 “美国 
会 "”， 这 时 ， 就 得 根据 语言 交际 的 具体 环境 的 语 用 方面 的 知识 ， 才 能 做 
出 正确 的 切 分 。 








f| C9) 中 的 监 义 切 分 字段 < 和 疝 ”， 仅 只 根据 词法 、 句 法 和 语义 知 
识 ， 也 不 足以 判断 古代 庙宇 是 “和 疝 ” 使 用 还 是 “ 疝 ” 使 用 的 ， 这 也 只 好 根 
所 语言 区 际 的 具体 环境 的 语 用 方面 的 知识 ， 才 能 做 出 正确 的 切 分 。 


根据 上 面 所 述 的 蚊 义 切 分 字段 的 性 质 ， 可 以 把 它们 分 为 四 种 不 同 的 


类 型 


一 利用 词法 知识 就 能 判断 的 歧义 切 分 字段 ， 叫 做 “词法 监 义 字段 ”。 
一 利用 句法 知识 才能 判断 的 歧义 切 分 字段 ， 叫 做 “句法 歧义 字段 ”。 
一 利用 语义 知识 才能 判断 的 歧义 切 分 字段 ， 叫 做 “语义 歧义 字段 ”。 


一 利用 语 用 知识 才能 判断 的 蚊 义 切 分 字段 ， 叫 做 “ 语 用 歧义 字段 ”。 





其 中 ， 词 法 牙 义 字段 与 交集 型 歧义 切 分 字段 完全 对 应 ， 其 余 三 关 则 
与 多 义 组 合 型 歧义 切 分 字段 相对 应 。 


根据 何克抗 等 人 对 50833 个 汉字 的 典型 综合 语 料 的 统计 分 析 ， 在 这 
个 综合 语 料 中 ， 监 义 字 段 的 总 出 现 次 数 与 语 料 中 所 含 汉字 总 数 之 比 为 
0.192%， 其 中 各 关上 蚊 义 字段 所 占 的 比例 如 下 : 


e. 词法 收 义 字段 出 现 次 数 与 语 料 中 所 含 汉字 总 数 之 比 为 0.766%， 占 
歧义 字段 总 次 数 的 84.10%。 


e 人 句法 歧义 字段 出 现 次 数 与 语 料 中 所 含 汉 字 总 数 之 比 为 0.098%， 占 
区 义 字 段 总 次 数 的 10.8%。 


e 语义 歧义 字段 出 现 次 数 与 语 料 中 所 含 汉 字 总 数 之 比 为 0.031%， 占 
歧义 字段 总 次 数 的 3.4%。 


e 语 用 上 收 义 字段 出 现 次 数 与 语 料 中 所 舍 汉 字 总 数 之 比 为 0.016%， 占 
歧义 字段 总 次 数 的 1.7%。 


由 此 可 见 ， 词 法 歧义 字段 占 了 歧义 字段 总 数 的 绝 大 多 数 ， 句 法 歧义 
字段 次 之 ， 语 义 歧义 字段 再 次 之 ， 语 用 歧义 字段 最 少 。 这 意味 着 ， 如 果 
我 们 利用 词法 知识 ， 正 确 地 切 分 了 词法 皮 义 字段 ， 那 么 ， 就 可 能 解决 绝 


大 多 数 的 歧义 字段 的 问题 。 如 果 我 们 进一步 利用 句法 知识 、 语 义 知 识 、 
语 用 知识 ， 则 可 进一步 解决 句法 歧义 字段 、 语 义 歧义 字段 、 语 用 歧义 字 
段 的 切 分 问题 ， 一 步 一 步 地 提高 目 动 切 分 的 正确 率 。 


第 四 和 汉语 书面 文本 中 确定 切 词 
单位 的 茶 些 形 却 因 隶 


在 汉语 书面 文本 的 目 动 切 分 中 ， 切 分 单位 的 确定 是 一 个 关键 而 困难 
的 问题 。 之 所 以 说 这 是 “关键 >? 问题， 是 因为 如 果 切 分 单位 不 合理 ， 将 严 
重 影 响 自 动 切 分 的 效果 和 应 用 的 前 景 ; 之 所 以 说 这 是 “困难 ”问题 ， 古 因 
为 切 分 单位 的 确定 第 第 使 得 研究 人 员 举 棋 不 定 。 





我 国 中 文 信息 界 从 1988 年 开始 研制 《信息 处 理 用 现代 汉语 分 词 规 
范 》 的 国家 标准 ， 根 据 科 学 性 、 严 说 性 、 稳 定性 、 通 用 性 、 实 用 性 和 完 
整 性 的 原则 ， 经 过 三 年 时 间 的 研究 ， 七 易 其 稿 ， 于 1992 年 经 批准 成 为 国 
家 标准 ， 标 准 号 为 GB/T13715-92。 但 是 ，《 信 息 处 理 用 现代 汉语 分 词 
规范 》 中 提出 的 “结合 紧密 ， 使 用 稳定 ”的 原则 ， 显 得 过 于 党 统 和 含混 ， 
难于 操作 ， 而 语言 学 的 理论 上 ， 又 划分 不 清 语素 、 词 和 词组 的 界限 ， 使 
得 研究 人 员 无 所 适 从 。 














在 语言 学 界 ， 对 于 什么 是 词 ， 如 何 确定 语 隶 、 词 和 词组 的 界限 ， 一 
直 议 而 不 决 ， 语 言 学 界 未 能 提出 切实 可 行 的 原则 作为 确定 切 分 单位 的 理 
论 依据 ， 而 且 在 关于 语系 、 词 和 词组 的 基本 理论 方面 ， 存 在 着 相互 巴 
盾 、 不 能 日 加 其 说 的 严重 缺陷 。 本 市 对 于 这 些 问题 提出 一 些 解决 办 法 。 














1. 理论 词 的 概念 在 语言 学 上 的 缺陷 


我 们 把 语言 学 上 的 词 叫做 “理论 词 ”(theoretical word) ， 这 样 的 理 


论 词 的 概念 ， 在 语言 学 理论 上 与 语系 和 词组 划 水 难 分 ， 存 在 看 严重 的 缺 


陷 。 











在 语言 学 中 把 语素 分 为 目 由 语素 和 条 附 语 素 两 大 类 。“ 目 由 语素 ”是 
活动 能 力 很 强 、 不 仅 可 以 与 其 他 语系 组 合成 词 、 而 且 还 可 以 单独 成 词 使 
用 的 语言 中 的 最 小 的 造句 单位 。 例 如 , “地 ， 跑 ， 红 ?等 都 是 目 由 语素 。 
黏附 语素 的 活动 能 力 不 强 ， 不 能 单独 成 词 ， 它 们 要 与 其 它 的 语系 相 组 合 
Tum. UAL, 9$. UE 7e do A, MV. 
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构成 的 词 。 合 成 词 是 由 两 个 或 两 个 以 上 的 语素 构成 的 词 。 


由 于 单纯 词 只 由 一 个 语素 构成 ， 所 以 ， 这 个 构成 单纯 词 的 语素 必定 
是 自由 语素 。 这 样 一 来 , “地 ， 跑 ， 红 ”等 都 是 自由 语素 ， 它 们 同时 又 可 
以 看 成 单纯 词 。 从 语素 的 角度 看 是 自由 语素 ， 从 词 的 角度 看 是 单纯 词 。 
观察 的 角度 不 一 样 ， 名 称 不 同 ， 实 质 则 是 一 样 的 。 





在 语素 与 词 这 两 个 集合 之 间 ， 有 一 个 交集 Cintersection) ， 这 个 交 
集 就 是 自由 语素 ， 如 果 从 词 的 角度 看 ， 它 们 又 可 以 叫做 单纯 词 。 


语素 词 





自由 语素 = 单纯 词 






图 3.25 “语素 和 词 之 间 的 交集 


由 此 可 见 ， 黏 附 语素 和 词 之 间 的 界限 是 可 以 区 分 清楚 的 ， 和 猪 附 语素 
绝 不 可 能 是 词 ; 语系 和 合成 词 之 间 的 界限 也 是 可 以 区 分 清楚 的 ， 合 成 词 








不 可 能 是 单个 的 语素 。 然 而 ， 在 语系 和 词 之 间 有 一 个 交集 ， 这 个 交集 ， 
从 语素 的 角度 看 是 自由 语系 ， 从 词 的 角度 看 十 单纯 词 。 由 于 上 自由 语素 和 
单纯 词 名 异 而 实 同 ， 导 致 了 合成 词 和 词组 之 间 的 界限 不 清 。 这 是 汉语 语 
言 学 本 号 的 内 部 矛盾 ， 也 是 在 理论 上 的 一 个 人 硬 伤 。 




















下 面 我 们 进一步 从 结构 方面 说 明 这 种 界限 不 清 的 情况 。 








合成 词 的 构成 方式 与 词组 的 构成 方式 有 许多 一 致 的 地 方 。 
由 语素 和 语素 组 成 的 合成 词 ， 构 成 方式 主要 有 以 下 7 种 : 


DHIR: 两 个 语素 并 列 在 一 起 组 成 合成 词 ， 形 成 一 种 并 列 关系 。 
例如 ， 


WA, Vere, Pe, AHH, FX. 


DREN: 合成 词 中 的 两 个 语素 有 主 有 从 ， 后 一 个 语素 为 主体 ， 前 
一 个 语素 修饰 或 限制 后 一 个 语素 ， 形 成 一 种 偏 正 关 系 。 例 如 ， 


KE, IW, MR, FA, KR. 


(3) 文 配 式 : 合成 词 中 的 两 个 语素 ， 前 一 个 表示 动作 ， 后 一 个 表示 动 
作 涉 及 的 事物 ， 形 成 一 种 文 配 和 被 文 配 的 关系 。 例 如 ， 


领 从 ， 司 机 ， 主 席 ， 签 名， 悦耳 。 


由 补充 式 : 合成 词 中 的 两 个 语素 ， 前 一 个 表示 动作 ， 后 一 个 补充 说 
明 动 作 的 结果 ， 形 成 一 种 补充 关系 。 例 如 ， 


fer, WH, TK, Fav, Be. 


OMIT: 合成 词 中 的 两 个 语素 ， 前 一 个 是 陈述 的 对 象 ， 后 一 个 是 
陈述 的 内 容 ， 形 成 一 种 陈述 和 被 陈述 的 关系 。 例 如 ， 


Ju. Hf. Me, Dog. SO. 





ORMA: 合成 词 中 的 两 个 语素 ， 只 有 一 个 表示 实在 的 意义 ， 男 一 
个 不 表示 实在 的 意义 ， 只 是 作为 一 个 辅助 成 分 ， 附 加 在 表示 实在 意义 的 
语素 之 前 或 之 后 ， 形 成 前 缀 或 后 级 。 例 如 ， 








ER HB. AFA. HY. fT. 
OREZZA: 合成 词 是 由 单 首 节 语素 重合 而 构成 的 。 例 如 ， 





EAE, EWE, £923. SR Hel. 





词组 (phrase) 是 由 词 和 词组 合 而 成 的 。 
汉语 词组 的 构成 方式 主要 有 以 下 7 种 : 


QD 联合 结构 :词组 中 的 两 个 词 是 并 列 的 ， 形 成 一 种 并 列 关 系 。 例 
如 ， 


PUBS, VIED, Bor Fw, EAER, HAMR. 


Qiks: 词组 中 的 两 个 词 ， 前 一 个 是 修饰 语 ， 后 一 个 是 中 心 
语 ， 形 成 一 种 偏 正 关系 。 例 如 ， 





WEA, SAT, Bet, Tor Ril, FAZIO. 


QAM: 词组 中 的 两 个 词 ， 前 一 个 是 述 语 ， 后 一 个 是 宾语 ， 形 
成 一 种 述 语 对 宾语 的 支配 关系 。 例 如 ， 


热爱 祖国 ， 欣 时 音乐 ， 发 射 导 弹 ， 供 养父 母 ， 行 使 职权 。 


由 述 补 结构 : 词组 中 的 两 个 词 ， 前 一 个 是 述 语 ， 后 一 个 是 补 语 ， 形 
成 一 种 补充 关系 。 例 如 ， 


解释 清楚 ， 举 起 来 ， 洗 干净 ， 讲 明白 ， 扔 出 去 。 


OERA: 词组 中 的 两 个 词 ， 前 一 个 是 主语 ， 后 一 个 是 谓语 ， 形 
成 一 种 陈述 关系 。 例 如 ， 


小 孩 咳 嗽 ， 好 女 唱 歌 ， 天 气 热 ， 月 完事， 今天 星期 日 。 


@ 附 加 结构 :“ 的 字 结 构 " 和 “所 字 结 构 都 可 以 看 成 是 附加 了 “的 ” 字 
或 < 所" 字 的 结构 ， 形 成 一 种 附加 关系 。 例 如 ， 


当 兵 的 ， 掌 柜 的 ， 当 家 的 ， 所 看 到 ， 所 研究 ， 所 驱使 。 
由 后 缀 “者 ”构成 的 一 些 长 结构 也 可 以 看 成 附加 结构 的 词组 ， 例 如 ， 
层 教 不 改 者 ， 成 绩 不 合格 者 ， 申 请 移民 者 ， 患 心脏 病 者 ， 诺 贝 


尔 奖金 获得 者 。 


QRAHAM: 词组 中 的 两 个 词 ， 后 一 个 词 是 前 一 个 词 的 重 登 ， 形 成 
一 种 重合 关系 。 例 如 ， 





WANK, FARA, WRT, BARA, BIBS. 





可 以 看 出 ， 汉 语 的 合成 词 与 词组 的 构成 方式 存在 独 整 齐 的 对 应 ， 而 
且 每 种 对 应 的 结构 所 表示 的 关系 是 相同 的 。 


这 种 对 应 关系 可 列表 比较 如 下 : 


表示 的 关系 


并 列 式 联合 结构 并 列 关系 
偏 正 式 偏 正 结 构 偏 正 关系 
X BOX 述 宾 结构 支配 关系 


补充 式 述 补 结构 补充 关系 

陈述 式 主 谓 结构 陈述 关系 

附加 式 附加 结构 附加 关系 

EAA EAW HRA 
图 3.26 合成 词 与 词组 的 对 应 关系 比较 




















合成 词 的 构成 方式 与 词组 的 构成 方式 的 这 种 一 致 性 ， 使 得 汉语 的 语 
法 规则 易学 易 记 ， 对 汉语 的 学 习 是 有 好 处 的 。 可 和 是， 这 种 一 致 性 也 往往 
导致 合成 词 与 词组 的 界限 不 其 分 明 ， 使 我 们 难于 判断 一 个 结构 完 竟 是 合 
成 词 还 是 词组 。 








如 果 一 个 结构 由 两 个 医 附 语素 构成 ， 必 定 是 合成 词 ， 不 可 能 是 词 
组 。 例 如 ,“ 劳 ”是 黏附 语素 ,“ 损 ”也 是 黏附 语素 ， 它 们 结合 而 成 的 “ 劳 
损 ” 必 定 是 合成 词 ， 不 可 能 是 词组 。 








如 果 一 个 结构 由 一 个 条 附 语 素 和 一 个 自由 语 和 又 构成 ， 必 定 是 合成 
词 ， 不 可 能 是 词组 。 例 如 ,“ 殉 ?是 秋 附 语系 ,“ 动 ”是 目 由 语系 ， 他 们 结 
合 而 成 的 “ 委 动 ”必定 是 合成 词 ， 不 可 能 是 词组 。 

















含有 前 级 的 “老师 ”， “老虎 ”等 结构 ， 也 必定 是 合成 词 ， 不 可 能 是 谎 
组 ， 因 为 前 级 是 荞 附 语素 。 


含有 后 缀 的 结构 “桌子 “作者 ” “忽然 ”， 除 了 后 缀 “者 > 有 时 可 以 
附加 在 多 音节 结构 之 后 构成 词组 之 外 ， 在 一 般 情 况 下 ， 也 必定 是 合成 
词 ， 不 可 能 是 词组 ， 因 为 后 缀 是 黏附 语素 。 











但 是 ， 如 宋 一 个 结构 由 两 个 目 由 语素 组 成 ， 问 题 就 比较 复杂 。 








如 采 组 成 结构 的 两 个 自由 语 和 聂 都 是 双 音 节 语 素 或 多 音节 语素 ， 那 
么 ， 它 们 必定 是 词组 ， 不 是 合成 词 。 例 如 , “模糊 ?是 双 音节 目 由 语 
素 , “人 逻辑 ”也 是 双 首 节 自 由 语素 ， 由 它们 构成 的 “模糊 逻辑 ”必定 是 词 
组 ， 不 是 合成 词 。 








如 采 组 成 结构 的 两 个 自由 语素 ， 一 个 是 双 音 节 语 素 ， 一 个 是 单 音节 
语素 ， 那 么 ， 就 不 容易 判定 这 个 结构 是 合成 词 还 是 词组 。 例 如 ,“ 担 
区 ?是 双 音 节目 由 语素 ,“ 和 车 ?是 单 音节 自由 语素 ， 由 它们 结合 而 成 的 * 坦 
克 车 ”"， 有 人 认为 应 该 是 合成 词 ， 因 为 它 表示 一 个 整体 概 仿 。 但 
Æ Tee TAHA, HH ema NA Hina, Bee ae 
KAHE Se” ARMED NESSER, AE AWA EPR RA 
的 词组 。 


























可 见 ， 当 构成 结构 的 两 个 自由 语素 中 ， 有 一 个 单 首 市 语素 ， 束 可 能 
使 合成 词 和 词组 的 界限 变 得 模糊 起 来 ， 难 于 判定 。 





如 果 构 成 结构 的 两 个 自由 语系 部 是 单 音 节 语 系 ， 那 么 ， 合 成 词 和 词 
组 的 界限 就 更 加 模糊 ， 更 加 难于 判定 。 例 如 ， 当 单 音 节目 由 语素 “大 ?与 
男 外 的 单 首 节 上 自由 语素 “会 ， 军 ， 陆 ， 脑 ， 好 ， 红 ”组 成 “大 会 ， 大 车 ， 
大 陆 ， 大 脑 ， 大 好 ， 大 红 ” 时 ， 有 人 会 认为 前 后 语素 之 间 结 合 得 很 紧 
密 ， 应 该 是 合成 词 。 但 是 ， 当 “大 ”与 男 外 的 单 首 节 自 由 语素 “ 鱼 ， 河 ， 
船 ” 组 成 “大 鱼 ， 大 河 ， 大 船 ? 时 ， 可 能 就 会 有 人 和 觉得 前 后 语素 之 间 结 合 
得 不 很 紧密 ， 它 们 不 太 像 合成 词 ， 而 似乎 应 该 是 词组 了 。 





























又 如 ， 表 示 陈 述 关系 的 结构 < 洗澡， 鞠躬， 游泳 ， 理 发 *， 看 来 似乎 
是 合成 词 。 可 是 ， 有 时 ， 其 中 的 语素 可 以 分 离开 来 : 





洗 误 一 洗 了 一 次 澡 
鞠 轴 一 鞠 了 一 个 身 
游泳 一 游 了 一 次 沪 
理发 一 理 了 一 次 发 


这 时 ， 它 们 似乎 又 不 像 是 合成 词 。 究 竟 是 合成 词 还 是 词组 ， 难 于 判 


我 们 可 以 把 语系 、 词 和 词组 的 区 别 比 较 如 下 : 





是 否 为 
结构 单元 Bos | REE 
黏附 语素 





自由 语素 
单纯 词 
合成 词 
i] 组 























图 3.27 语素 、 词 和 词组 的 区 别 比 较 


从 此 图 中 可 以 看 出 : 











QD 任何 一 个 结构 单元 ， 可 以 根据 “是 否 有 意义 ”， “是否 为 最 小 单 
fu", “能 否 独 立 运 用 ”， “包含 语 素数 ”,， “包含 单 词 数 ” 等 5 个 性 质 来 鉴 
别 。 这 5 个 性 质 之 间 的 天 系 是 逻辑 上 的 合 取 关系 〈 八 ) ， 也 就 是 说 ， 每 
一 个 结构 单元 ， 要 同时 根据 这 5 个 性 质 来 鉴别 ， 如 果 仅 仅 根 据 其 中 的 某 
一 个 性 质 或 者 东 几 个 性 质 ， 是 不 可 能 鉴别 清楚 的 。 








凶 目 由 语素 与 单纯 词 的 性 质 完全 一 样 ， 它 们 在 实质 上 是 一 个 东西 。 





@@) 合 成 词 与 词组 的 前 面 4 个 性 质 都 相同 ， 只 有 最 后 一 个 性 质 〈 即 “ 包 
含 单词 数 ”) 不 同 ， 合 成 词 只 包含 一 个 单词 ， 而 词组 则 包含 两 个 或 两 个 
以 上 的 单词 ， 可是， 由 于 自由 语素 同时 又 可 以 看 成 单纯 词 ， 因 此 ， 当 合 
成 词 由 两 个 自由 语素 组 成 时 ， 也 可 以 把 它 看 成 是 由 两 个 单纯 词组 成 的 ， 
ORE, A cia] RAE Cia] ZA T o 








可 见 ， 在 语言 学 的 理论 上 ， 合 成 词 与 词组 的 分 界 问题 并 没有 解决 。 
这 种 理论 上 的 缺陷 ， 实 际 上 也 是 一 种 理论 上 的 人 硬 伤 ， 必 人 然 会 在 汉语 文本 
自动 切 分 的 实践 中 ， 引 起 种 种 的 矛盾 和 困难 。 鸟 


2. 形式 词 


为 了 克服 理论 词 在 语言 学 理论 上 的 这 种 硬 伤 ， 学 者 们 提出 “形式 
词 " 的 概念 。 下 面 我 们 从 形式 词 的 角度 来 讨论 确定 汉语 切 分 单位 的 主要 
形式 因素 。 





。 形 式 词 的 定义 





由 于 词 是 汉语 句法 和 语义 上 自动 分 析 的 基本 单位 ， 因 此 ， 当 中 文 信息 
处 理 从 “ 字 处 理 ” 阶 段 过 渡 到 “ 词 处 理 ” 阶 段 时 ， 必 须 对 由 连续 的 汉字 流 构 
成 的 、 单 词 之 间 无 空白 的 汉语 书面 文本 进行 自动 切 分 。 所 请“ 自动 切 
分 ”， 就 是 在 汉语 书面 文本 中 ， 目 动 地 把 词 切 分 出 来 ， 这 是 中 文 信息 处 
理 的 一 个 难题 。 在 汉语 书面 文本 中 把 词 切 分 出 来 之 后 ， 才 有 可 能 对 它 进 
行 更 为 深入 的 加 工 和 处 理 。 








从 自动 切 分 的 角度 ， 我 们 可 以 把 词 定义 为 "在 汉语 书面 文本 中 可 以 


根据 形式 因素 分 开 的 连续 的 汉字 串 〈 也 可 以 是 一 个 汉字 ) ”。 这 样 定义 
的 词 ， 叫 做 形式 词 (formal word) 。 





其 实 ， 在 汉语 书面 文本 长 期 发 展 的 过 程 中 ， 人 们 早 就 感到 了 这 种 形 
式 词 的 存在 ， 癌 利 给 词 赋予 菏 种 形式 ， 使 之 更 加 鲜明 醒目 。 





ili, CROWES) "bu, «RE, RERE”. RENH nae 
Alki FEB LEW EH, UREA. 


又 如 “伙伴 "原来 写 为 " 火 伴 "， 后 来 在 “ 火 " 字 上 仿照 " 伴 " 字 如 
了 “1“ 字 旁 ， 以 表示 它们 是 一 个 词 。 


“GEOR” ORG AS SUR”, RE R FEDR FI T F 
25 URKE EAN. 








“凤凰 ”原来 写 为 " 凤 星 ”， 后 来 在 < 星 ” 字 上 仿照 <" 凤 ” 字 加 了 个 帽子 ， 
写成 “< 凰 ” 字 ， 以 表示 它们 是 一 个 词 。 


在 汉语 书面 文本 的 自动 切 分 中 ， 我 们 给 词 赋 以 特定 形式 的 方法 ， 束 
是 把 形式 词 与 其 前 后 的 其 他 形式 词 用 空格 分 开 ， 实 行 切 分 ， 切 分 束 要 确 
定 “ 切 分 单位 ”。 确 定 切 分 单位 的 形式 因素 ， 就 是 把 形式 词 从 形式 上 表现 
出 来 的 形式 手段 。 


e 人 确定 切 分 单位 的 主要 形式 因素 


由 于 在 理论 上 合成 词 与 词组 的 界限 问题 没有 彻 原 解决 ， 我 们 在 讨论 
如 何 确定 切 分 单位 的 问题 时 ， 只 有 从 实践 中 逐步 摸索 和 探讨 确定 切 分 单 
位 的 形式 因素 。 因 为 没有 坚实 的 理论 基础 ， 我 们 也 是 “ 摸 着 石 尖 过 河 ”。 
在 这 样 “ 摸 着 石头 过 河 ” 的 目 动 切 分 工作 中 ， 尽 管 我 们 没有 能 力 在 理论 上 
解决 合成 词 与 词组 的 界限 问题 ， 但 是 ， 我 们 可 以 吸取 汉语 研究 的 一 个 局 


部 性 成 果 ， 找 出 确定 切 分 单位 的 一 些 形式 因素 。 





从 语言 学 的 角度 来 看 ， 确 定 切 分 单位 的 形式 因素 有 三 个 方面 : 第 一 
古语 法 因 系 ， 第 二 是 语义 因素 ， 第 三 是 语音 因素 。 它 们 是 确定 切 分 单位 
的 主要 形式 因 系 。 











在 语法 因 系 的 方面 ， 提 出 了 如 下 的 测定 方法 : 
OF Ml EI 


FE J A ELAS a EI A a SA UP] EI as, WR 
够 符 代 ， 就 可 以 判定 为 词组 ， 而 不 是 合成 词 。 





例如 ， 在 “吃饭 ”中 ,，“ 吃 ”和 " 饭 "都 是 自由 语素 ， 要 测定 “吃饭 ?是 合 
成 词 还 是 词组 ， 先 用 与 " 吃 " 性 质 相 近 的 自由 语素 " 盛 *、“ 者 ”( 它 们 都 表 
RAMO 替代“ 吃 *， 说 成 盛 饭 "、“ 煮 饭 "， 再 用 与 " 饭 "性 质 相 近 的 自由 
语素 “ 面 "“ 粥 ”( 它 们 都 是 食品 ) ， 说 成 < 吃 面 "、“ 吃 粥 ”。 由 于 前 后 两 
个 自由 语素 都 能 被 蔡 代 ， 就 可 以 判定 "吃饭 ?是 词组 ， 而 不 是 合成 词 ， 应 
切 分 为 " 吃 / 饭 ”。 


殖 代 测定 法 是 不 可 靠 的 ， 这 种 方法 容易 引出 不 合 和 常识 的 错误 结论 。 


I, “HERR, HTB RZ a NTE”. GEA. IQS. 
绒 "， 但 是 ， 从 语感 上 显然 " 驼 绒 "不 可 能 是 一 个 词组 ， 而 是 一 个 合成 
词 。 蔡 代 测定 法 得 出 的 结论 ， 与 人 们 的 语感 差别 太 大 。 所 以 ， 蔡 代 测定 
法 只 能 作为 确定 切 分 单位 的 一 种 参考 ， 不 能 作为 可 靠 的 依据 。 

回 插入 测定 法 


用 特定 的 自由 语素 〈 如 “的 ”) 插入 待 测 定 的 结构 中 ， 如 果 能 插入 而 


不 改变 该 结构 的 意义 ， 就 判定 为 词组 ， 而 不 是 合成 词 。 


“ 形 + 名 ”的 俩 正 结构 ， 其 切 分 的 分 合 问 题 ， 可 以 用 插入 测定 法 来 确 


<H (HE) +944” CHE) : 


“新 鞋 "中 插入 特定 的 自由 语素 "的 *， 形 成 "新 的 鞋 "， 意 义 没 改变 ， 
可 判定 "新 鞋 "为 词组 ， 不 是 合成 词 ， 应 切 分 为 “新 / 鞋 "。 同 理 ，“ 小 床 "应 
BS" NI. “ELE LUIS SAE? 


“白菜 "中 插入 特定 的 自由 语素 “的 "， 形 成 的 “ 白 的 菜 "， 其 意义 与 “ 白 
菜 ”不 同 ， 可 判定 “白菜 "不 是 词组 ， 而 是 合成 词 ， 不 能 切 分 。 同 理 ，“ 红 
花 ”( 一 种 药材 o TER, SE, AR, ARER 








Fe" CHET) +94" OUR) : 


"Ebr RC RU", JERARD, UBC, TARH 
PRP VEL, REDD AE. RESI, SOS RI UA 
心 "，“ 香 橡皮 "应 切 分 为" 香 /橡皮 "。 


“小 媳妇 ”中 插入 特定 的 自由 语素 “的 "”， 形 成 “小 的 媳妇 ”， 其 意义 
与 “小 媚 妇 ?不 同 ， 可 判定 “小 旭 妇 ?不 是 词组 ， 而 是 合成 词 ， 不 能 切 分 。 
E, ER, EEM “局 帽 儿 ” 都 不 能 切 分 。 





一 “ 形 ”( 双 音节 ) +“ 名 ”( 单 音节 ) ， 


“贫困 县 "中 插入 “的 "， 形 成 “贫困 的 县 "， 意 义 没有 改变 ， 可 判定 “ 贫 
困 县 "为 词组 ， 应 切 分 为 “贫困 /县 "。 同 理 ，“ 富 裕 村 ”应 切 分 为 “富裕 / 
村 ”，“ 先 进 队 ” 应 切 分 为 "先进 / 队 ”。 


“美丽 岛 “ 中 搬入 “的 ?， 形 成 < 美丽 的 岛 ”， 其 意义 与 “美丽 岛 ”( 一 个 
地 名 ) 不 同 ， 可 判定 “美丽 岛 ? 不 是 词组 ， 而 是 合成 词 ， 不 能 切 分 。 同 
ZB, “牡丹 江 ”，“ 横 断 山 ”， “橄榄 绿 ”〈 一 种 颜色 ) 也 不 能 切 分 。 











插入 测定 法 比较 客观 ， 适 用 范围 比较 广 ， 但 是 ， 有 时 也 会 得 出 一 些 


` 合 常识 的 结论 。 


例如 ， 北 京 话 中 可 以 说 < 鸡 ”， 不 可 以 说 “ 鸭 "， 而 要 说 成 < 鸭子"。 如 
果 我 们 用 插入 自由 语素 "的 ”的 方法 来 测定 "鸡蛋 "和 end “鸡蛋 "可 以 
改 说 成 “ 鸡 的 蛋 "，“ 和 鸭蛋 "不 可 以 改 说 成 “ 鸭 的 蛋 "， 于 是 得 出 结论 :“ 鸡 
蛋 "是 词组 ，“ 胸 蛋 "是 合成 词 ， 这 种 结论 a 事实 
上 ， 人 们 普遍 认为 "鸡蛋 "和 "鸭蛋 都 不 是 词组 ， 而 是 合成 词 。 














可 见 ， 插 入 测定 法 并 不 是 万 能 的 ， 使 用 时 要 考虑 到 各 种 复杂 情况 
除了 插入 “的 ”之 外 ， 还 可 以 插入 其 他 成 分 来 确定 切 分 单位 。 





在 自动 切 分 中 ， 可 以 使 用 插入 “得 ?或 “不 ”的 方法 来 确定 茶 些 述 补 结 
构 的 分 合 问题 。 


某 些 由 动词 加 动词 或 动词 加 形容 词 构成 的 述 补 结构 ， 它 们 的 分 合 常 
常 令 我 们 举 棋 不 是。 使 用 插入 测定 法 ， 可 以 规定 ， 双 音节 的 述 补 结构 中 
间 ， 如 果 可 以 插入 “得 ”或 “不 "， 则 一 般 应 予 切 分 。 例 如 ， 





“ 走 到 ”可 以 插入 “得 ”或 “不 ”:“ 走 /得 /到 ， 走 /不 /到 ”， 因 此 ,“ 走 
到 ”应 切 分 为 “ 走 / 到 ”。 


eae Ea Dt Ae BS. GY ELSE”. 因此 
上 ”应 切 分 为 “ 安 / 上 ”。 


“ 接 上 ”可 以 插入 “得 ”或 “不 ”: “ 撞 / 得 /上 ， TANI E2, 因此 ， «Ju 
上 "应 切 分 为" 撞 / 上 >”。 





“ 抓 住 ? 可 以 插入 “得 ?或 “不 ”: “ 抓 / 得 / 住 ， 抓 /不 / 住 >， 因 此 ,“ 抓 
住 ”应 切 分 为 “ 抓 / 住 ”。 


“ 调 好 ”可 以 插入 “得 "或 “不 *:“ 调 /得 /好 ， 调 /不 /好 *， 因 此 ，“ 调 
好 ”应 切 分 为 “ 调 /好 ”。 


“ 坐 稳 " 可 以 插入 “得 "或 "不 ":“ 坐 /得 / 稳 ， 坐 /不 / 稳 *， 因 此 ，" 坐 
Ki" LUA A fem 


“ 打 坏 ”可 以 插入 “得 ”或 “不 ”: “ 打 / 得 / 坏 ， 打 /不 / 坏 ”， 因 此 ,“ 打 
坏 ” 应 切 分 为 “ 打 / 坏 ”。 





如 果 述 补 结构 中 间 不 能 插入 “得 ?或 “不 ”， 则 不 切 分 ， 作 为 一 个 切 分 
单位 。 例 如 , “oN, Task, mea, WR, Bo”. 





在 有 “得 ”或 “不 ”的 述 补 结构 中 ， 如 果 去 掉 “ 得 ”或 “不 ”后 ， 前 后 两 个 
字 不 构成 一 个 词 的 ， 则 不 切 分 ， 作 为 一 个 切 分 单位 。 例 如 , “来 得 及 ， 
来 不 及 ”， “对 得 起 ， 对 不 起 ” “说 得 过 去 ， 说 不 过 去 ”， “了 不 起 ”。 








语言 学 中 的 “词汇 完整 性 假设 ”(lexical integrity hypothesis) 指出 ， 
句法 规则 不 能 影响 到 词汇 内 部 的 任何 成 分 。 在 上 述 的 插入 测定 法 中 ， 把 
一 些 自由 语系 插入 到 竺 测 的 结构 中 ， 实 际 上 是 通过 插入 这 种 方法 来 观 罕 
句法 规则 能 否 影响 到 符 测 结构 的 内 部 ， 如 果 不 能 插入 ， 就 说 明 句 法 结构 
不 能 影响 到 符 测 结构 的 内 部 ， 从 而 判定 待 测 结构 是 合成 词 而 不 是 词组 。 
所 以 插入 测定 法 实际 上 束 是 利用 “词汇 完整 性 假设 "， 根 据 词 汇 的 “可 拆 
TE" (separability) 来 区 别 合成 词 与 词组 的 一 种 方法 。 








GO 黏附 性 测定 法 


测定 组 合成 分 的 黏附 性 ， 如 果 在 一 个 组 合 中 出 现 猎 附 语素 ， 则 不 能 
切 分 ， 应 确定 为 一 个 切 分 单位 。 例 如 ， 含 有 前 级 、 后 组 的 词 ， 都 是 一 个 
切 分 单位 ， 不 能 切 分 。 例 如 ，* 阿 哥 ”"，“ 老 应 "，“ 非 金属 "，* 超 声 

Be CATED + BHR”, KA, ER, RAR, “ate, 
发 员 "，“ 标 准 化 ”( 含 后 级 )。 


如 果 词 中 含有 多 个 后 缀 ， 仍 然 算 为 一 个 切 分 单位 ， 不 能 切 分 。 例 
ap, “物理 学 家 ”， “语言 学 界 * “拖拉 机 手 ”, "vuU. MA 


分 。 





但 是 ， 当 茶 些 前 绥 的 管辖 范围 超出 了 一 个 单词 之 外 ， 仍 然 应 该 切 
分 。 例 如 ,“ 非 /国家 /工作 /人 员 ”“ 非 /本 市 /注册 /和 车辆”。 


由 功能 完备 性 测定 法 


在 插入 测定 法 中 提 到 的 “词汇 完整 性 假设 ?说 明了 合成 词 应 该 具有 完 
备 的 功能 ， 而 词组 则 不 一 定 具 有 像 合 成 词 那 样 完备 的 句法 功能 。 “词汇 
完整 性 假设 ”是 词汇 的 “功能 完备 性 ”的 一 种 反映 ， 词 汇 的 “功能 完 
性 ?意味 着: 句法 规则 只 表现 于 词 与 词 之 间 ， 单 词 具有 完备 的 句法 功 
能 ， 而 词组 不 能 具有 单词 能 够 具有 的 那样 完备 的 句法 功能 。 我 们 可 以 利 
用 竺 测 对 象 功能 的 完备 性 来 判定 其 是 否 为 形式 词 。 功 能 完备 的 是 合 友 
词 ， 功 能 不 完备 的 是 词组 。 

















除了 前 面 提 到 的 “可 拆 性 ?之 外 ， 蕊 能 完备 性 表现 在 如 下 两 方面 : 





D 动词 的 “及 物性 ”(transitivity) : “及 物性 ?是 动词 的 重要 句法 规 
则 ， 动 词 合成 词 后 面 可 以 直接 插入 宾语 ， 而 动词 词组 后 面 则 不 能 直接 插 





入 宾语 。 有 具体 地 说 ， 


[1+1j」 双 音节 的 [ 动 + 宾 」 式 组 合 后 能 直接 带 宾 语 ， 可 判定 为 合成 
词 。 例 如 , “ASR RA rei CARA”) ， 因 而 可 判定 “得 
罪 ?是 合成 词 。 同 理 ， 可 判定 “ 抱 急 〈 抱 怨 人 ) ， 关 心 〈 关 心 他 ) ， 担 心 
(担心 他 ) ， 进 口 ( 进 口 货物 ) ， 留 神 《〈“ 留 神 钱包 ) ”是 合成 词 ， 不 能 
切 分 。 

















[1+2] 三 音节 的 [ 动 + 宾 ] 式 组 合 后 不 能 直接 带 宾语 ， 可 判定 为 记 
组 。 例 如 ，“ 开 玩笑 "后 面 不 能 直接 带 宾语 C ”开玩笑 和 人) ， 因 而 可 判 
定 “ 开 玩笑 "是 词组 。 同 理 ， 可 判定 “动手 术 (” 动手 术 他 ) 、 咬 耳朵 C 
WHA) ”是 词组 ， 应 该 切 分 。 





[1+1j」 双 音节 的 [ 动 + 补 ] 式 组 合 后 能 直接 带 宾 语 ， 可 判定 为 合成 
词 。 例 如 ,“ 想 透 ” 后 面 可 直接 带 宾 语 〈 想 透 问题 )》 ， 因 而 可 判定 “ 想 
PEAR. AE, IERE CROMER) ， 摆 齐 《〈 摆 齐 果 子 ) ， 
绑 好 《〈 绑 好 绳子 ) ， 写 出 《〈“ 写 出 文章 ) ”是 合成 词 ， 不 能 切 分 。 














[142] 三 音节 的 [ 动 + 补 ] 式 组 合 后 不 能 直接 融 宾 语 ， 可 判定 为 词 
组 。 例 如 ,“ 想 透彻 "后 面 不 能 直接 带 宾 语 (” 想 透 彻 问题 )》， 因 而 可 判 
JE RUB eA. ABE, AER CRE), FEIT 
CO 摆 整 齐 桌 子 ) ， 绑 结实 C RAKAT) o SA C 写 通顺 文 
章 ) ， 说 流利 〈 ”说 流利 汉语 ) ”是 词组 ， 应 该 切 分 。 








2) 形容 词 前 加 “非常 、 特 别 * 修 饰 : 


Citi] 双 音 节 的 [“ 可 ”+ 动 ] 式 形容 词 ， 前 面 能 加 “非常 、 特 别 * 等 
副词 修饰 ， 可 判定 为 合成 词 。 例 如 ，“ 可 爱 " 前 面 可 加 “非常 、 特 别 * 修 饰 





(非常 可 爱 、 特 别 可 爱 ) ， 因 而 可 判定 “可爱 " 是 合成 词 。 同 理 ， 可 判 
定 “ 可 恨 〈 非 常 可 恨 、 特 别 可 恨 ) ， 可 翡 〈 非 常 可 翡 、 特 别 可 悲 ) ， 可 
Hb GERTIE ATID ， 可 疑 〈 非 常 可 疑 、 特 别 可 疑 ) "是 合成 
词 ， 不 能 切 分 。 





[142] 三 音节 [< 可 ?+ 动 」 式 形容 词 ， 前 面 不 能 加 “非常 、 特 别 ” 等 
副词 修饰 ， 可 判定 为 词组 。 例 如 ,“ 可 喜爱 ”前面 不 能 加 "非常 、 特 别 ” 修 
ig C 非常 可 喜爱 、 ”特别 可 喜爱 ) ， 因 而 可 判定 “可 喜爱 "是 词组 ， 应 该 
切 分 。 同 理 ， 可 判定 “可 痛恨 〈” 非 常 可 痛恨 、” 特 别 可 痛恨 ) . "DEG 
C 3EHRINE. "RIEIRO , AA CO JERAR "CER 
WE) ， 可 怀疑 〈 非常 可 怀疑 、 特别 可 怀疑 ) ”是 词组 ， 应 该 切 分 。 








由 此 可 见 ， 词 组 往往 会 失去 单词 所 具有 的 完备 的 句法 功能 ， 因 此 我 
们 可 以 使 用 功能 完备 性 测定 法 来 判定 切 分 单位 。 


在 语义 因素 的 方面 ， 提 出 了 如 下 的 方法 : 


意义 单纯 性 判定 法 





根据 待 测 结构 中 两 个 语素 意义 结合 而 成 的 总 体 意义 的 单纯 性 来 判 
定 。 总 体 意义 单纯 的 判定 为 合成 词 ， 总 体 意义 不 单纯 的 判定 为 词组 





例如 ，“ 城 市 的 总 体 意义 单纯 ， 是 合成 词 ， 是 一 个 切 分 单位 ; OR 
妻 "的 总 体 意义 不 单纯 ， 它 的 意义 等 于 “ 夫 * 与 妻 "的 意义 的 总 和 ， 是 词 
组 ， 应 切 分 为 “ 夫 / 妻 *。 








“东西 ”这 个 结构 有 歧义 。 当 它 的 意义 表示 事物 时 ， 意 义 单纯 ， 是 合 
成 词 ， 是 一 个 切 分 单位 ， 当 它 的 意义 表示 “东边 和 西边 "时 ， 这 个 意义 


于 “ 东 ” 和 “ 西 ”* 的 总 和 ， 意 义 不 单 纯 ， 是 词组 ， 应 切 分 为 “ 东 / 西 ”。 





=) 
AE 
SE 


“长 短 " 这 个 结构 有 歧义 。 当 它 的 意义 表示 一 个 人 的 优 缺 点 时 〈“ 不 
要 议论 别人 的 长 短 ”) ， 意 义 单纯 ， 是 合成 词 ， 作 为 一 个 切 分 单位 ; 当 
它 的 意义 表示 “长 "和 “ 短 " 时 ， 这 个 意义 等 于 “长 "和 “ 短 ” 的 总 和 ， 意 义 不 
单纯 ， 是 词组 ， 应 切 分 为 “长 / 短 ”。 








“深浅 "这 个 结构 也 有 歧义 ， 当 它 的 意义 表示 事物 的 分 寸 时 “他 说 
话 没 深浅 ") ， 意 义 单纯 ， 是 合成 词 ， 作 为 一 个 切 分 单位 ， 当 它 的 意义 
表示 “ 深 ? 和 * 浅 "的 程度 时 〈“ 河 水 的 深浅 ") ， 其 意义 等 于 “ 深 * 和 “ 浅 " 的 
总 和 ， 意 义 不 单 纯 ， 是 词组 ， 应 切 分 为 “ 深 / 浅 *。 





“a CEAT) + 名 《〈 双 音节 ) ”结构 是 有 歧义 的 ， 当 它 是 偏 正 天 系 
时 ， 只 表示 一 种 事物 ， 意 义 比 较 单 纯 ， 不 应 切 分 ， 当 和 它 是 述 宾 关系 时 ， 
涉及 到 行为 以 及 其 对 象 ， 意 义 不 单 纯 ， 应 该 切 分 。 例 如 ， 





REKA., HARNI) 
RIEA EN, CAE 





"jr CET) + 名 ( 单 首 节 )“ 的 结构 也 有 歧义 ， 当 它 表 示 一 个 事 
Wt, ELFA, DREIN: 当 它 是 介 宾 结构 时 ， 涉 及 到 行为 的 对 象 ， 
意义 不 单纯 ， 应 该 切 分 。 例 如 ， 





这 /个 /把 手 / 是 / 木 制 /的 。 (“把 手 “ 不 切 分 ) 
EFA CFE“ oP) 


意义 紧密 性 判定 法 





根据 街 汕 络 构 中 两 个 或 诸 个 语 陛 意义 结合 的 紧密 性 来 判定 ， 意 义 紧 
密 的 判定 为 合成 词 ， 不 切 分 ; 意义 松懈 的 判定 为 词组 ， 切 分 。 





例如 , “爱国 ”中 的 两 个 自由 语素 “ 爱 ” 与 “ 国 ” 中 间 不 能 插入 别 的 成 
意义 结合 得 很 紧密 ， 判 定 为 合成 词 ， 不 切 分 。 "读书 ”中 的 两 个 自由 
读 ” 和 “ 书 ” 之 间 可 以 插入 别 的 成 分 :“ 读 了 一 本 书 ”"， 意 义 联系 松 
懈 ， 判 定 为 词组 ， 应 切 分 为 “ 读 / 书 ”。 





国名 具有 唯一 性 ， 其 组 成 成 分 的 意义 结合 紧密 ， 是 一 个 切 分 单位 ， 
^B. fu “FE”, “Sei”, “德国 ",， “英国 "。 但 是 ， 有 的 国名 
的 全 称 比较 长 ， 一 般 应 该 切 分 ， 例 如 ,， “中华 / 人 民 /共和 国 ”, “美利坚 / 合 
众 国 ” “德意志 /联邦 /共和 国 ”", “大 不 列 题 /及 / 北 爱 尔 兰 /联合 /王国 ”， 一 
般 都 要 切 分 。 





菜谱 名 中 的 各 个 成 分 ， 如 果 切 分 后 意义 相差 甚 远 ， 说 明 其 意义 结 
ZE, WERD. Au, SAT”, KRA”, “红烧 肉 ”， “SE 
鱼 ”， 都 不 切 分 。 但 是 ， 如 果菜 谱 名 的 意义 是 它 的 各 个 成 分 的 意义 的 简 
单 组 合 ， 意 义 结合 不 紧密 ， 则 切 分 。 例 如 ， “鸡蛋 / 汤 ”，“ 肉 丝 / 面 "，“ 芝 
RFI” o 











缩写 词 中 诸 成 分 结合 紧密 ， 也 不 切 分 。 例 如 , “四 化 >，“ 水 
Hi", “石化 >， "EROR, EE, “奥运 会 >，“ 工 农业 ” “中 西方 >，“ 港 
AG”, ARN”, “FRR”, “FUF, BEBA”, “农林 牧 副 渔 >。 但 
是 ， 当 在 有 顿 号 隔 开 时 ， 则 切 分 。 例 如 ,，“ 港 /、/ 澳 /、/ 台 /同胞 ”。 


四 字 成 语 和 习惯 用 语 ， 各 成 分 意义 结合 紧密 ， 难 以 拆 开 ， 不 切 分 。 
例如 , WART, “SREK, “匹夫 有 责 ”， “众所周知 ”，“ 春 夏秋 
X”, “充其量 ”， “由 此 可 见 ”， “ 喝 西 北 风 ”， <TR A Fatt” 


超过 四 个 字 的 成 语 和 惯用 语 ， 各 成 分 意义 结合 紧密 ， 也 不 切 分 。 例 
ad, “一 年 之 计 在 于 春 ”“ 不 管 三 七 二 十 一 ”。 但 是 ， 当 有 标点 符号 隔 开 








时 ， 则 切 分 。 例 如 ,“ 人 心 / 齐 /，/ 泰 山 / 移 "。 


(3) 引申 意义 判定 法 





根据 符 测 结构 的 意义 是 否 为 引申 意义 来 判定 ， 是 引申 意义 的 判定 为 
合成 词 ， 而 保持 本 义 的 就 可 判定 为 词组 。 





例如 , “吃饭 ”的 本 意 是 进餐 ， 判 定 为 词组 ， 切 分 为 " 叹 / 饭 ” 但 是 ， 
在 句子 “ 靠 自 己 的 劳动 吃饭 ”中 ,，“ 吃 饭 ” 的 意义 引申 为 “生存 ”"， 束 判定 为 
合成 词 ， 不 切 分 。 











同样 地 , “号 酷 ? 的 本 义 是 “ 喝 酷 ?， 应 判定 为 词组 ， 切 分 为 <" 吧 / 酷 ”; 
但 是 ， 当 引申 为 “产生 嫉 妒 情绪 ?时 ， 就 判定 为 合成 词 ， 不 切 分 。 


又 如 ,“ 骨 ”与 “ 肉 ? 两 个 名 素 构 成 的 并 列 式 名 词 “ 骨 肉 ? 表 示 有 血缘 天 
系 ， 其 合 义 不 等 于 名 素 “ 骨 ”的 含义 与 名 素 “ 肉 ”的 含义 的 简单 总 和 ， 而 是 
由 “ 骨 ” 与 “ 肉 ” 的 含义 引申 而 成 的 ， 应 判定 为 合成 词 ， 不 切 分 。 








Big, “ 领 ” 与 “ 宙 ? 两 个 名 素 构成 的 并 列 式 名 词 “ 领 袖 ?>， 表 示 "“ 带 头 人 
W, GAR AW SARA INS CIEE, EI SMe a 
的 很 远 的 引申 ， 应 判定 为 合成 词 ， 不 切 分 。 


在 “妇女 能 顶 半 边 天 “中 的 “半边 天 ”(〈 指 新 社会 的 妇女 ) ,“ 他 真 小 
气 ， 像 个 铁 公 鸡 ”中 的 “ 铁 公鸡 ”比喻 一 毛 不 披 ) ，“ 银 行 的 工作 是 铁 饭 
Wi ”中 的 “ 铁 饭 碗 ”〈 比 喻 非常 稳固 的 职位 ) ,“ 他 在 那里 钨 蘑菇 ”中 的 “ 泡 
藤 癌 ”*”( 比喻 故意 纠缠 ， 拖 延 时 间 〉 ， 都 具有 引申 意义 ， 不 切 分 。 





第 用 性 判定 法 
根据 符 测 结构 的 向 用 性 来 判定 ， 音 用 的 判定 为 合成 诅 ， 算 一 个 切 分 


单位 ， 不 常用 的 判定 为 词组 ， 切 分 。 


“Aig CH) + 方位 词 〈 单 音节 ) ”的 方位 词组 ， 一 般 应 该 切 
分 。 例 如 ，“ 饭 /前 ”，“ 树 /上 ”，“ 包 /里 ”，“ 床 /下 ”。 但 是 ， 某 些 这 样 的 方 
位 结构 使 用 频 度 很 高 ， 事 实 上 已 经 转化 成 处 所 词 或 时 间 词 ， 不 应 切 分 。 
pilin, “Rk”, “AT, “身上 ” “ek, “Ja”, “国外 ”。 


“分 之 ”是 常见 的 表达 分 数 的 词语 ， 不 切 分 。 


一 些 常见 的 并 且 已 经 收入 词典 中 的 书籍 名 、 报 刊 名 ， 也 不 切 分 。 例 
hi, "Arp, "Wü, kien "OR, “ARBI”, OUS 
AR”. 


在 语音 因素 的 方面 ， 提 出 了 如 下 的 方法 : 


(停顿 判定 法 








在 一 些 包含 多 个 汉字 的 词组 中 ， 构 成 词组 的 自由 语素 之 间 常 有 停 
顿 ， 可 以 作为 切 分 的 参考 。 


例如 ,， “全国 信息 技术 标准 化 委员 会 * 这 个 结构 中 的 停顿 情况 
是 :“ 全 国 .信息 -技术 -标准 化 .委员 会 "， 语 素 之 间 有 停顿 ， 判 定 为 词 
组 ， 切 分 为 “全 国 /信息 /技术 /标准 化 /委员 会 ”。 





包 双 音节 化 判定 法 





现代 汉语 的 单词 有 双 音 节 化 Cdisyllabism) 的 倾向 。 双 音节 化 导致 
音节 之 间 出 现 两 种 相反 的 现象 ;一 种 是 “ 相 吸 ”， 另 一 种 是 “ 相 拒 ?， 周 有 
光 先 生 总 结 了 现代 汉语 双 音 节 化 的 现象 ， 提 出 了 三 条 基本 规律 : “单单 
THU", “双双 相 拒 ?，“ 吸 单 拒 双 ”。 





所 谓 “ 单 单 相 吸 ”， 征 指 两 个 单 音节 的 自由 语 际 相 吸 而 连结 成 一 个 合 
成 词 ， 不 切 分 。 例 如 , “人 ”和 ”* 民 ” 相 吸 而 连结 成 合成 词 <“ 人 民 ”， 不 切 
分 ;“ 香 ”和 “ 烟 ” 相 吸 而 连结 成 合成 词 “香烟 *"， 不 切 分 。 

















羊 音 贡 的 区 别 词 和 单 音节 名 词 构 成 的 组 合 ， 单 单 相 吸 而 不 切 分 。 例 
ap, "HEX", “母狗”，“ 男 人”。 


单 首 节 人 代词“ 本 、 每 、 各 、 诸 ?后 接 单 音 市 名 词 时 ， 单 单 相 吸 而 不 切 
分 。 例 如 , “ASL”, “每 人 ” “各 位 ” “诸位 ”。 但 是 ， 当 它们 后 接 双 音 
节 名 词 时 ， 就 排斥 双 音 节 名 词 而 切 分 为 两 个 单位 ， 表 现 出 一 种 “ 吸 单 拒 
xvii. pa, “本 /公司 ”，“ 各 /部 门 ”。 





单 音 贡 名 词 重 登 式 ， 单 单 相 吸 而 不 切 分 。 例 如 , “KAA, “RR 








昔 音 市 动词 重 登 式 ， 单 单 相 吸 而 不 切 分 。 例 如 ,“ 走 走 ”, “看 看 ”。 





单 音 节 形 容 词 重 三 式 ， 单 单 相 吸 而 不 切 分 。 例 如 ,“ 红 红 ”，“ 久 
VA 





单 音 节 量 词 重 登 式 ， 单 单 相 吸 而 不 切 分 。 例 如 ,“ 件 件 ”，“ 个 个 ”。 





单 首 节 副 词 重 登 式 ， 单 单 相 吸 而 不 切 分 。 例 如 ,， tU. “仅仅 ”。 





所 谓 “ 双 双 相 拒 ?， 征 指 两 组 双 音 市 纺 构 往往 有 相 拒 的 倾 癌 而 分 写 为 
词组 。 





例如 ，“ 讨 论 "是 一 个 双 音节 结构 的 合成 词 ， 它 的 ABAB 型 的 重 舍 形 
式 是 “讨论 讨论 "由 两 个 双 音 节 结 构 组 成 ， 这 两 个 双 音节 结构 彼此 相 拒 ， 
应 分 写 为 词组 ， 分 写 为 “讨论 /讨论 ”。 











如 ， 


如 ， 


如 ， 


如 ， 


双 音 节 形 容 词 的 ABAB 型 重 登 式 ， 双 双 相 拒 而 切 分 为 “AB/AB”。 


rN =r \ M S 
“局 兴 / 高 兴 ”。“ 热 闹 / 热 曾 ”。 


双 音 节 状 态 词 的 ABAB 型 重 骆 式 ， 双 双 相 拒 而 切 分 为 “AB/AB”。 


“FAFA”, HA/AA”, “浅黄 /浅黄 ”。 


双 音 节 数 词 的 ABAB 型 重 登 式 ， 双 双 相 拒 而 切 分 为 "AB/AB”。 例 


“许多 /许多 ”，“ 很 多 /很 多 ”。 





双 音 节 数 量词 的 ABAB 型 重 登 式 ， 双 双 相 拒 而 切 分 为 “AB/AB”。 


“一 个 /一 个 ”。 


生变 化 ， 算 一 个 切 分 单位 。 例 如 ,“ 勾 勾搭 描 ”，“ 比 比划 划 ”。 


化 ， 


化 ， 


化 ， 


ATV EO”, zeta SOS aS 
er Bat He TO E Er P| OR UE ee], AA 


Bil 


B©, Wai] MAABBA SEXO. AFAARIBBYI DRAB XK 


XURECBJÉGURBJAABBZUESGXSS HITAARSIBBU]A2)J56 X MRES 


算 一 个 切 分 单位 。 例 如 , “eT ER, "RBS. 


双 音 节 名 词 的 AABB 型 重 登 式 ， 由 于 AA 和 BB 切 分 后 意义 发 生变 


算 一 个 切 分 单位 。 例 如 ,“ 山 出 水 水 ” “方方面面 ”。 


双 音 节 数 词 的 AABB 型 重 登 式 ， 由 于 AA 和 BB 切 分 后 意义 发 生变 


算 一 个 切 分 单位 。 例 如 , “多 多 少 少 ”“ 许 许多 多 ”。 














结构 相遇 时 ， 这 个 双 





TAE 


另 一 个 双 音 节 结构 相遇 时 ， 这 个 双 音 节 结构 往往 会 排斥 另 一 个 双 音节 结 


构 而 新 形成 词组 。 例 如 , “图 书 ? 和 是 个 双 音 节 





结构 的 合成 词 ， 当 它 与 单 音 


节 语素 “ 馆 * 相 遇 时 ， 能 够 把 这 个 单 音节 语素 “ 馆 * 吸 引 过 来 ， 形 成 < 图 书 











个 合成 词 ， 是 一 个 切 分 单位 ， 但是， 当 它 与 双 音 节 结 构 “ 目 录 ” 相 





遇 时 ， 却 排斥 这 个 双 音 节 结 构 ， 而 形成 一 个 词组 “图 书目 录 ， 应 分 写 
为 “图 书 /目录 ?两 个 切 分 单位 。 有 时 ， 三 音节 结构 也 会 把 它 后 面 的 单 音节 
语素 吸引 过 来 而 形成 合成 词 ， 也 具有 “ 吸 单 拒 双 ”的 规律 。 例 如 , “天 文 
PRS STAM, SAATTAA EN, qk MAB TER 
吸引 过 来 而 形成 合成 词 “天 文学 书 ”， 是 一 个 切 分 单位 ， 而 当 三 首 市 

词 “ 天 文学 ?后 接 双 首 节 词 “ 理 论 ? 时 ， 则 表现 出 排斥 的 倾 同 ， 应 该 切 分 
为 “天 文学 /理论 ”。 如 前 所 述 ， 单 音节 代词 后 接 名 词 时 ， 也 表现 出 这 

种 “< 吸 单 拒 双 ”的 倾 回 。 所 以 ，“ 吸 单 拒 双 ” 的 倾向 不 仅 是 双 首 节 词 的 特 
性 ， 而 且 三 音 市 词 和 单 音 节 词 也 表现 出 这 种 “ 吸 蛙 拒 双 ” 的 倾 则 。 这 是 汉 
语 书 面 文本 自动 切 分 在 语 首 方面 的 一 个 普遍 规律 。 




















这 里 需要 注意 的 是 ， 双 首 节 词 “ 吸 单 拒 双 ” 中 的 “ 吸 单 "， 是 指 前 面 的 
双 音 市 词 吸 引 它 后 面 的 单 音节 词 ， 是 “前 双 吸 后 单 ”， 单 音节 词 “ 吸 单 拒 
双 ?” 中 的 “ 拒 双 ”， 是 指 前 面 的 单 音节 词 拒绝 后 面 的 双 音 节 词 ， 是 “前 单 拒 
后 双 ”。 虽 然 两 者 都 是 双 首 节 词 与 单 音节 词 相遇 ， 但 由 于 前 后 位 置 不 
同 ， 吸 引 或 拒绝 的 情况 也 就 大 不 一 样 。 所 以 我 们 不 能 笼统 地 说 双 首 市 词 
与 单 音节 词 之 间 的 相 吸 或 者 相 斥 ， 而 应 该 注意 它们 前 后 位 置 的 不 同 对 于 
相 吸 相 斥 规律 的 影响 。 

















这 种 “ 吸 单 拒 双 ”的 倾 问 ， 在 地 名 的 切 分 中 也 表现 出 来 。 


当地 名 后 有 “省 、 市 、 县 、 区 、 乡 、 镇 、 村 、 旗 、 州 、 都 、 府 、 
道 "等 单 音节 的 行政 区 划 名 称 时 ， 马 上 把 单 音节 名 称 吸 过 来 ， 形 成 单独 
的 切 分 单位 。 例 如 ，“ 四 川 省 "，“ 天 津 市 ”， “景德镇 市 ”，“ 沙 市 市 ”，“ 牧 
PRIT”, ERR”, WEK’, GAK, KAL”, M, 
WR, ERTH”, SARM, KRR, KBN”, CEH 

ii, “KEE, “开封 府 ”。 











当地 名 后 有 行政 区 划 名 称 为 双 音 节 时 ， 则 排斥 双 音 节 的 名 称 ， 形 成 
两 个 切 分 单位 。 例 如 ,， “芜湖 /专区 ”，“ 宣 城 /地 区 ”， “深圳 /特区 ”，“ 厦 
门 /特区 ”，“ 华 三 顿 /特区 ”。 


当地 名 后 有 表示 地 形 地 貌 的 单 音节 的 普通 名 词 江 、 河 、 山 、 洋 、 
海 、 岛 、 峰 、 湖 "时 ， 则 相 吸 而 形成 单独 的 切 分 单位 ， 不 予 切 分 。 例 
Wm, ET, SEDAN”, “喜马拉雅 山 "，“ 珠 称 朗 玛 峰 ”"，*“ 地 中 
海 ",“ 大 西洋 "，*“ 洞 庭 湖 ”，“ 济 州 岛 "。 





当地 名 后 有 表示 地 形 地 貌 的 双 首 节 的 普通 名 词 时 ， 则 相 拒 而 成 为 两 
个 切 分 单位 ， 例 如 ,“ 人 台湾 /海峡 “华北 /平原 ”，“ 昌 米尔 /高 原 ",“ 青 
藏 / 蜗 原 ”， “PWD AE Hy” “阿尔 卑 斯 /山脉 ”。 








当地 名 后 有 表示 自然 区 划 的 单 音节 的 “ 街 ， 路 ， 道 ， 起 ， 里 ， 町 ， 
庄 ， 村 ， 弄 ， 堡 "等 普通 名 词 时 ， 则 相 吸 而 形成 单独 的 切 分 单位 ， 不 予 
切 分 。 例 如 ，“ 中 关 村 *，“ 长 安 街 "，“ 学 院 路 ”，“ 景 德 镇 "，“ 吴 家 
E, ERE”, SRE”, MRR, GRWR”. 











当地 名 后 有 表示 目 然 区 划 的 双 首 节 普 通 名 词 时 ， 则 相 拒 而 切 分 为 两 
个 切 分 单位 。 例 如 ,，“ 米 市 /大 街 ”，“ 将 家 /胡同 ”， “陶然 吝 /公园 ”。 





这 种 “ 吸 单 拒 双 ”的 倾 问 ， 在 民族 名 称 、 语 言 文字 名 称 的 切 分 中 也 表 
现 出 来 。 


民族 名 称 后 面 的 单 音节 词 “ 族 ” 一 律 不 切 分 ， 整 个 民族 作为 一 个 切 分 
单位 。 例 如 , "Eee. “HAM, “WSR So, “AEG RIK”. (Ase, 
如 果 后 面 接 双 音 节 的 词 * 民 族 ”， 则 切 分 。 例 如 , “蒙古 /民族 ”",， “朝鲜 / 民 
We”, “中 华 / 民 族 ”。 


语言 文字 名 称 后 面 的 单 音节 词 “ 语 * 和 “ 文 * 一 律 不 切 分 ， 整 个 语言 广 
字 名 称 作为 一 个 切 分 单位 。 例 如 ，“ 蒙 古语 "，“ 维 吾 尔 语 "，“ 斯 拉夫 
语 "，“ 日 耳 曼 语 "，* 蒙 古文 "。 但 是 ， 当 后 面 接 双 音节 词 “语言 "和 " 文 
字 " 时 ， 则 切 分 为 两 个 单位 。 例 如 ，“ 印 欧 /语言 %“ 吐 火 罗 /文字 ”。 





由 此 可 见 ,“ 双 音节 化 判定 法 ?是 确定 汉语 文本 自动 切 分 的 切 分 单位 
的 一 个 非常 重要 而 且 行 之 有 效 的 方法 。 这 种 “ 双 音 节 化 ”反映 了 汉语 韵律 
i (Chinese prosodic system) 的 特征 ， 汉 语 章 律 的 基本 形式 是 双 音 
节 ， 这 种 双 首 节 ， 束 是 汉语 韵律 的 首 步 (prosodic step) ， 音 步 是 汉语 
韵律 的 单位 ， 也 是 汉语 书面 文本 的 切 分 单位 ， 只 要 满足 首 步 ， 就 可 以 判 
定 为 词 。 如 果 某 一 字符 串 等 于 韵律 单位 ， 那 么 ， 该 字符 串 就 被 前 
律 “ 压 ”成 词 ， 如 果 某 一 字符 串 大 于 韵律 单位 ， 那 么 ， 该 字符 串 就 往往 会 
被 韵律 “ 掉 ? 为 词组 。 在 现代 汉语 中 ， 存 在 着“ 韵律 压 词 ， 韵 律 掉 
语 ”(“ 语 ?就 是 短语 ， 也 就 是 词组 ) 的 规律 。 














我 们 在 前 面 讨论 语法 因素 时 曾经 涉及 “ 双 音 节 化 ”的 规律 对 于 语法 因 
素 的 制约 作用 。 看 来 ， 在 确定 切 分 单位 的 各 种 因 系 中 ,“ 双 音 市 化 ”的 前 
律 起 着 举足轻重 的 关键 作用 。 韵 律 是 我 们 在 确定 切 分 单位 时 首先 应 当 考 
虑 的 因素 。 以 韵律 因素 为 主 ， 辅 之 以 语法 因素 和 语义 因素 ， 可 能 是 确定 
切 分 单位 的 有 效 办 法 。 











当然 ， 确 定 了 韵律 因素 为 主 ， 并 不 意味 着 忽视 其 他 因素 。 事 实 上 ， 
在 汉语 书面 文本 的 目 动 切 分 研究 中 ， 我 们 不 能 只 采用 一 种 方法 来 确定 切 
分 单位 。 比 较 切 合 实际 的 办 法 是 综合 运用 上 述 各 种 方法 来 进行 判断 ， 各 
种 方法 之 间 应 该 相互 补充 ， 相 互 校正 。 














e 确定 切 分 单位 的 其 他 形式 因素 


形式 词 是 理论 词 在 汉语 文本 目 动 切 分 中 的 进一步 拓 广 ， 它 的 外 延 比 
理论 词 更 为 广泛 ， 因 此 ， 除 了 前 面 所 述 的 语言 学 上 的 三 个 形式 因素 之 
外 ， 还 应 该 考虑 以 下 的 形式 因 系 。 





QD 视 读 原则 


切 分 以 后 的 汉语 书面 文本 是 一 种 视 读 实体 ， 最 好 应 该 满足 视觉 形象 
方面 的 要 求 。 





但 是 ， 根 据 认 知心 理学 的 研究 ， 人 对 信息 的 感知 广度 以 7 左右 为 
限 。 我 们 数 侍 果 ， 五 个 五 个 地 数 比 较 容 易 ， 十 个 十 个 地 数 束 很 难 。 据 说 
象棋 大 师 对 于 不 成 布局 的 、 阵 势 较 乱 的 棋盘 ， 粗 看 一 下 之 后 ， 人 至 多 也 只 
能 记 住 7 个 棋子 的 位 置 。 根 据 这 样 的 原理 ， 切 分 出 来 的 形式 词 中 所 含 的 
汉字 数目 以 不 多 于 7 个 为 佳 ， 要 尽量 使 汉字 数目 超过 7 个 的 形式 词 不 要 太 
多 。 例 如 , “同步 稳 相 回旋 加 速 器 ?含有 9 个 汉字 ， 如 果 连 写 为 一 串 长 龙 
不 便 阅 读 ， 根 据 视 读 原 则 ， 可 切 分 为 “同步 / 稳 相 / 回 旋 / 加 速 器 "4 个 形式 
词 。 





一 些 长 的 地 名 和 机 构 名 如 果 不 切 分 也 不 便于 视 读 ， 应 该 切 分 。 例 
如 ，“ 河 北 省 /正定 县 /西平 乐 乡 / 南 化 村 ”， “云南 省 /昆明 市 /五 华 区 /大 观 
街 ”，“ 教 育 部 /语言 /文字 /应 用 /研究 所 /计算 /语言 学 /研究 室 ”。 











新 闻 报 道中 的 活动 名 称 不 宜 太 长 ， 对 于 那些 太 长 的 活动 名 称 ， 也 应 
该 切 分 开 来 ， 以 便 视 读 。 例 如 ,“ 庆 /回归 /公益 / 千 万 / 行 ” “第 三 /次 / 横 
田 /基地 /噪音 /诉讼 ”。 


BEA WR, IAT aa, AGRA TEM REIL”, Ja 


缀 “者 ?前面 的 部 分 不 应 该 与 者? 切 分 。 但 是 ， 有 时 “者 ?前面 的 部 分 很 
长 ， 连 成 长 龙 不 便于 视 读 ， 也 应 该 切 分 。 例 如 , “经 过 /和 音 苦 /追求 /而 / 获 








SERIE, ANT RUDI E Ir] S/F, “多 /次 /判刑 /而 /屡教不改 / 


Ik gÀ 


SE" HAR, Jm TRIN ae, Td Zub EM EIS”, BUTS dE" Ja 
的 部 分 不 应 该 与 “ 非 ? 切 分 。 但 是 ， 有 时 “ 非 ?后 面 管辖 的 范围 太 长 ， 连 成 
长 龙 不便 视 读 ， 也 应 该 切 分 。 例 如 , “ 非 /本 市 /注册 /车 辆 ”。 


认 知 心理 学 的 研究 证 明 ， 形 式 词 的 汉字 序列 中 首尾 两 头 的 汉字 比较 
容易 辨认 。 个 别 的 一 些 长 词 ， 如 果 我 们 看 一 看 它们 的 两 头 ， 再 加 上 前 后 
文 的 提示 ， 则 中 间 的 汉字 不 必 细 看 也 可 以 辨别 出 这 个 词 来 。 根 据 这 样 的 
原理 ， 在 上 自动 切 分 时 ， 可 以 把 多 普 市 后 级 “一 主义 ”、“ 一 主义 者 ” 同 前 面 
的 汉字 连 写 ， 反 而 比分 写 容易 辨认 。 例 如 ,， “马克 思 列 宁 主 义 者 ”。 当 
然 ， 这 样 的 长 词 不 宜 过 多 ， 长 词 的 数目 要 加 以 严格 的 控制 。 如 果 长 词 数 
目 太 多 ， 其 可 辨识 性 就 会 随 长 词 数 目的 增加 而 降低 。 

















在 确定 形式 词 的 时 候 ， 我 们 应 该 考虑 到 这 些 视 读 方 面 的 原则 。 
DE TMR N 


从 汉语 书面 文本 上 自动 切 分 的 实际 情况 来 看 ， 切 分 单位 不 仅仅 是 上 述 
的 词 ， 还 可 能 是 比 词 更 大 的 单位 (如 成 语 、 习 惯用 语 ) ， 也 可 以 是 比 词 
EKR RER MIERO ， 所 以 ， 本 文中 所 说 的 形式 词 除 
了 一 般 意 义 上 的 词 之 外 ， 还 包括 比 词 更 大 以 及 比 词 更 小 的 单位 。 形 式 词 
也 就 是 切 分 单位 。 





作为 切 分 单位 的 成 语 和 习惯 用 语 有 如 前 述 。 


黏附 语素 和 非 语 系 字 也 可 以 是 切 分 单位 。 





REA Gia] CHR PAYS, Titik, FEA, MA”) 在 实际 文本 中 可 


能 分 离 出 黏附 语素 ， 这 时 ， 这 些 分 离 出 来 的 务 附 语素 驶 成 为 了 切 分 单 
位 。 例 如 ， 

洗 / 了 /一 /次 / 澡 

葛 / 了 /一 /个 / 躺 

游 / 了 /一 /次 / 泳 

出 /了 /一 /次 / 差 


其 中 的 “ 澡 、 鞠 、 射 、 泳 、 差 ”都 是 儿 附 语素 ， 然 而 ， 它 们 都 是 实 实在 在 
的 切 分 单位 ， 也 就 是 我 们 的 形式 词 。 


菏 些 非 语素 字 也 可 以 成 为 切 词 单位 。 例 如 ， 


葡萄 /的 /和 葡 / 字 /怎么 / 写 /? 
向 圾 /的 / 觅 /有 /什么 /意思 / 吗 /? 





其 中 的 “区 ”和 “ 议 ” 都 不 是 语系 ， 它 们 是 没有 意义 的 非 语素 字 ， 然 而 ， 它 
们 都 可 能 成 为 切 分 单位 。 

标点 符 写 也 应 该 是 切 分 单位 ， 从 这 个 意义 上 说 ， 标 点 符号 也 是 一 种 
特殊 的 形式 词 ， 在 自然 语言 处 理 中 ， 标 点 符号 的 处 理 是 一 个 很 重要 的 问 


jel 











科学 技术 文章 中 的 公式 和 符号 ， 也 应 该 是 切 分 单位 ， 也 可 以 看 成 一 
种 特殊 的 形式 词 。 


由 此 可 见 ， 我 们 对 于 形式 词 的 理解 应 该 是 多 元 化 的 ， 形 式 词 不 仅仅 
征 词 ， 还 可 以 是 成 语 、 惯 用 语 、 条 附 语素 、 非 语素 字 ， 甚 全 还 可 以 是 标 
点 符号 、 公 式 或 其 他 符号 、 数 字 串 、 外 文字 母 串 ， 等 等 。 我 们 应 该 遵从 
多 元 化 的 原则 ， 对 于 形式 词 作 广义 的 理解 。 从 中 文 信息 处 理 的 实际 需要 











来 看 ， 我 们 完全 有 必要 在 自动 切 分 中 把 “理论 词 * 的 概念 加 以 扩展 ， 引 
入 “形式 词 ” 的 概念 。 


国家 标准 GB13715《 信 息 处 理 用 现代 汉语 分 词 规范 》 中 ， 给 “分 词 
单位 ”下 的 定义 是 :“ 汉 语 信息 处 理 使 用 的 、 有 具有 确定 的 语义 或 语法 功能 
的 基本 单位 ”>。 我 们 在 本 文中 提出 的 “形式 词 * 的 外 延 比 这 个 定义 所 界 说 
的 “分 词 单位 ”要 广泛 一 些 ， 这 个 “形式 词 ”? 的 概念 更 加 适合 于 中 文 信息 处 
理 的 需要 。 





领域 针对 性 原则 








我 们 还 可 以 根据 中 文 信息 处 理 其 他 领域 的 实际 需要 ， 把 形式 词 的 概 
念 引 入 机 器 翻译 、 信 息 检 索 、 信 息 抽 取 、 文 本 数据 挖掘 、 目 动 分 类 、 目 
动 文 摘 、 语 音 识 别 等 领域 ， 针 对 不 同 领 域 的 实际 需要 ， 建 立 不 同 领域 的 
形式 词 系 统 ， 以 弥补 语言 学 中 由 于 “理论 词 ?在 理论 方面 的 缺陷 而 引起 的 
各 种 困难 和 矛盾。 














例如 ， 在 汉语 翻译 成 外 语 的 机 器 翻译 中 ， 词 组 型 的 科学 技术 术语 最 
好 不 要 切 分 ， 可 以 整个 地 翻译 为 相应 的 外 语 术 语 ， 这 样 可 以 减轻 汉语 分 
析 的 负担 。 例 如 ， 地 理学 术语 “沙漠 卵石 履 盖 层 "”， 可 以 直接 翻译 为 英语 
的 “desert pavement”， 如 果 切 分 开 来 翻译 ， 译 文 可 能 会 不 知 所 云 。 在 信 
恩 检 索 中 ， 这 样 的 长 术语 也 最 好 不 要 切 分 ， 以 提高 检索 系统 的 查 准 率 。 
但 是 ， 如 果 在 研究 汉语 科技 术语 结构 的 术语 数据 库 中 ， 为 了 表示 科技 术 
语 的 结构 ， 就 有 必要 加 以 切 分 。 不 同 的 领域 对 于 切 分 的 要 求 是 有 差别 
的 ， 我 们 有 必要 针对 不 同 的 领域 建立 不 同 的 形式 词 系 统 ， 以 满足 不 同 领 
域 的 不 同 要 求 。 











显而易见 ， 针 对 不 同 领域 的 形式 词 系 统 应 该 既 有 “大 同 ”， 又 有 "小 


异 "。“ 大 同 "反映 了 不 同 领域 的 形式 词 的 共性 ,，“ 小 异 "反映 了 不 同 领域 
形式 词 的 特性 ， 我 们 应 该 把 共性 和 个 性 结合 起 来 ， 建 立 自然 语言 处 理 
中 "形式 词 ”的 新 概念 。 








形式 词 研究 是 目 然 语言 处 理 理论 建设 的 一 项 基础 工作 ， 和 希望 引起 学 
术 界 的 进一步 讨论 ， 我 们 在 本 书 中 的 讨论 仅 只 是 抛砖引玉 而 已 。 





第 五 SAW A ENE 


汉语 书面 语 的 文本 在 目 动 切 分 之 后 ， 词 与 词 之 间 出 现 了 空白 ,我 们 
就 有 可 能 像 处 理 英 文 、 法 文 、 德 文 那样 ， 进 一 步 分 析 每 个 词 的 词类 和 语 
义 特征 ， 并 给 每 一 个 词 自 动 地 标注 上 有 关 的 信息 。 














文本 自动 标注 包括 两 方面 的 内 容 : 目 动词 性 标注 和 上 自动 语义 标注 。 
首先 谈 目 动词 性 标注 。 


所 谓 自 动词 性 标注 (automatic Part-of-Speech tagging, automatic 
POS tagging) 可 简称 为 标注 (tagging) ， 这 是 给 语料库 中 的 每 一 个 单词 
站 派 一 个 词类 或 者 词汇 类 别 标 记 的 过 程 。 这 些 标记 通常 也 用 来 标注 标点 
FS; 因此 ， 自 然 语言 的 标注 过 程 与 计算 机 语言 的 词 例 还 原 
(tokenization) 过 程 是 一 样 的， 尽管 自然 语言 的 标记 具有 更 多 的 上 玉 义 
性 。 词 性 标注 不 但 是 机 器 翻译 形态 分 析 的 重要 组 成 部 分 ， 而 且 它 在 语音 
识别 和 信息 检索 中 都 起 着 越 来 越 重要 的 作用 。 








在 英语 、 汉 语 等 自然 语言 中 ， 都 存在 独 大 量 的 词 的 兼 类 现象 ， 这 给 
文本 的 上 自动 词性 标注 带 来 了 很 大 的 困难 。 因 此 ， 如 何 排除 兼 类 词 的 歧 
义 ， 是 文本 目 动 词性 标注 研究 的 关键 问题 。 








早 在 20 世 纪 60 年 代 ， 国 外 学 者 就 开始 研究 英语 文本 的 自动 词类 标注 
问题 ， 提 出 了 一 些 消除 兼 关 词 歧义 的 方法 ， 建 立 了 一 些 上 自动 词性 标注 系 
统 。 


通行 的 英语 标记 集 CtagseO 有 几 种 ， 多 数 都 是 从 布 明 语料库 


(Brown Corpus) 中 所 使 用 的 包含 87 个 标记 的 标记 集 演 化 发 展 而 来 的 。 
页 语 中 最 常用 的 标记 集 有 三 个 : 


e 第 一 个 为 宾 州 树 库 (Penn Treebank) 标记 集 ， 包 含 45 个 标记 ， 是 
小 标记 集 ; 


e 第 二 个 为 兰 卡 斯 特大 学 〈Lancaster University) UCREL 计 划 的 成 
分 似 然 性 自动 词性 标注 系统 CLAWS (the Constituent Likelihood 
Automatic Word-tagging System, ) 使 用 的 标记 集 C5， 包 含 61 个 标记 ， 
是 中 型 的 标记 集 ，C5 标 记 集 用 于 标注 瑞 国 国家 语料库 Cthe British 
National Corpus， 人 简称 BNC) ; 





e 第 三 个 标记 集 是 包含 146 个 标记 的 大 型 标记 集 C7。 


这 里 我 们 介绍 它们 当中 最 小 的 一 个 标记 集 ， 即 Penn Treebank 的 标记 
集 ， 然 后 讨论 从 其 他 标记 集 来 的 一 些 特殊 的 附加 标记 。 


标记 
CC 
CD 
DT 
EX 
FW 
IN 
JJ 
JJR 
JJS 
LS 
MD 
NN 
NNS 
NNP 
NNP 
PDT 
POS 
EP 
PP $ 
RB 
RBR 
RBS 
RP 
SYM 
TO 
UH 





含义 
Coordin. Conjunction 
Cardinal number 
Determiner 
Existential ‘there’ 
Foreign Word 
Preposition/sub-conj 
Adjectivev 

Adj. , comparative 
Adj. , superlative 
List item marker 
Modal 

Noun, sing, or mass 
Noun, plural 

Proper noun, singular 
SProper noun, plural 
Predetermine 
possessive ending 
Personal pronoun 
Possessive pronoun 
Adverb 

Adverb, comparative 
Adverb, superlative 


Particle 


Symbol 


Interjection 


例子 

and, but, or 
one, two, three 
a, the 


there 


mea culpa( 我 的 过 失 ) 


of, in, by 
yellow 
bigger 
biggest 

1, 2, one 
can, should 
llama 
llamas 

IBM 
Carolinas 
all, both 

's 

I, you, he 
your, one’s 
quickly, never 
faster 
fastest 

up, off 
+,%,& 


to 


ah, oops 


VB Verb, base form eat 


VBD Verb past tense ate 

VBG Verb, gerund eating 

VBN Verb, past participle eaten 

VBP Verb, non-3sg pres eat 
VBZ Verb, 3sg pres eats 

WDT Wh-determiner which, that 

WP Wh-pronounv whose 

WP $ Possessive wh- whose 

WRB Wh-adverb how, where 
$ Dollar sign $ 

# Pound sign # 

" Left quote (m 7) 

" Right quote ( 或 ”) 

( Left parenthesis Chalets x 
) Right parenthesis C LJ. d. m 
: Comma , 

Sentence-final punc bu TJ 
Mid-sentence punc (iig =) 





这 个 Penn Treebank 标 记 集 应 用 于 布 明 语料库 和 一 些 其 他 的 语料库 。 
这 里 是 布朗 语料库 的 Penn Treebank 版 本 中 的 一 个 标注 了 的 句子 的 例子 : 


待 标注 的 句子 是 : 
The grand jury commented on a number of other topics. 


标注 后 的 句子 中 ， 每 一 个 单词 和 标点 符号 的 后 面 都 加 上 了 词类 标 
id: 


The/DT  grand/JJ juryNN  commented/VBD  on/IN a/DT 


number/NN of/IN otherJJ topics/NNS ./. 


3e — TS RIF AASCIDC TE, Pp ica A by TEBE T PR. PT 
用 和 斜 线 隔 开 ， 不 过 标记 也 可 以 用 其 他 方式 来 表示 。 





Penn Treebank 的 标记 集 是 从 布 明 语料库 原 有 的 87 个 标记 的 标记 集中 
挑选 出 来 的 。 这 个 小 标记 集 去 掉 的 标记 主要 是 那些 表示 单词 条 目 本 喘 可 
以 包含 的 信息 的 标记 。 例 如 ， 在 原来 的 布朗 语料库 的 标记 集 以 及 像 C5 这 
样 的 其 他 比较 大 的 标记 集中 ， 对 于 动词 do，be 和 have 的 不 同形 式 都 有 不 
同 的 标记 (例如 ，C5 中 用 VDD 表 示 did， 用 VDG 表 示 doing) ， 而 这 样 的 
标记 ，Penn Treebank 的 标记 集中 都 略 去 了 。 





在 Penn Treebank 的 标记 集中 ， 有 些 句 法 的 区 别 没 有 表示 出 来 ， 因 为 
树 库 中 的 句子 都 是 剖析 过 的 ， 而 不 仅仅 只 是 做 了 标记 ， 所 以 ， 某 些 句法 
言 息 已 经 在 短语 结构 中 表示 出 来 了 。 例 如 ， 介 词 和 从 属 连 接 词 结合 为 一 
个 单独 的 标记 IN， 这 是 因为 在 句子 的 树 结构 中 ， 它 们 之 间 的 歧义 已 经 消 
解 了 从属 连 接 词 总 是 位 于 分 句 之 前 ， 而 介词 总 是 位 于 名 词 短 语 之 前 或 
处 于 介词 短语 之 中 ) 。 














但 是 ， 在 大 多 数 进 行 标注 的 场合 ， 并 不 要 求 对 语料库 进行 剖析 ， 正 
是 由 于 这 个 原因 ，Penn ”Treebank 的 标记 集 在 很 多 应 用 中 就 显得 不 够 用 
了 。 例 如 ，C7 标 记 和 集中 就 区 分 介词 (11〉 和 从 属 连 接 词 (CS) ， 并 且 还 
区 分 介词 〈II) 和 动词 不 定式 的 标志 (TO) 。 


对 于 特定 的 应 用 目的 来 说 ， 使 用 什么 样 的 标记 和 集 取决 于 应 用 中 需要 
信息 的 多 少 。 

为 了 便于 一 般 读 者 阅读 ， 我 们 在 本 书 中 采用 的 标记 主要 遵从 我 国 自 
然 语言 处 理学 界 的 习惯 用 法 ， 与 Penn Treebank 的 标记 不 完全 相同 。 


标注 算法 的 输入 是 单词 的 符号 串 和 词类 标记 集 Ctagset) 。 算 法 的 
输出 要 让 每 一 个 单词 都 标 上 一 个 单独 的 而 且 是 最 佳 的 标记 。 例 如 ， 这 里 
是 ATIS 语 料 库 中 的 一 些 样本 句子 ，ATIS 语 料 库 是 一 个 关于 航空 旅行 订 
票 对 话 的 语料库 。 对 于 每 一 个 单词 ， 我 们 给 出 了 一 个 潜在 的 标记 输出 ， 
标记 集 采 用 我 们 前 面 定义 的 Penn Treebank 标 记 集 : 


Book/VB that/DT flighVNN ./. 
Does/VBZ that/DT flight/NN serve/VB dinner/NN?/? 





尽管 这 是 一 些 非 常 简单 的 例子 ， 但 是 要 自动 地 给 每 一 个 单词 都 指 铂 
一 个 标记 也 并 不 是 很 容易 的 事 。 例 如 ，book 这 个 单词 就 是 有 歧义 的 
(ambiguous) ， 也 就 是 说 ，book 有 一 个 以 上 的 用 法 和 一 个 以 上 的 词 
类 。book 可 以 是 动词 (例如 ，book that flight [ 订 那 种 飞机 票 ] 或 book 
the suspect [控告 嫌疑 人 ] ) ， 也 可 以 是 名 词 〈 例 如 ，hand me that book 
[把 那 本 书 交 给 我 ] 或 a book of matches [一 本 关于 比赛 的 书 ] ) . # 
似 地 ，that 可 以 是 限定 词 〈 例 如 ，Does that flight serve dinner [这 个 航班 
供应 晚餐 吗 ] ) ， 也 可 以 是 标 补 语 ( 例 如 ，I thought that your flight was 
earlier [我 认为 ， 你 的 飞机 早 一 些 」】) 。 词 类 标注 的 问题 束 是 消解 这 样 
的 歧义 ， 在 一 定 的 上 下 文中 选择 恰如其分 的 标记 。 








词类 标注 的 难度 究竟 有 多 大 呢 ? 英语 中 的 大 多 数 单词 都 是 没有 歧义 
的 ， 也 就 是 说 ， 这 些 单词 只 有 一 个 单独 的 标记 。 但 是 喘 语 中 的 最 弟 用 的 
单词 很 多 都 是 有 上 收 义 的 。 例 如 ，can 可 以 是 助动词 (表示 “能 够 ”|[to be 
able] ) ， 也 可 以 是 名 词 (表示 “ 钢 涉 ”La metal container] ) ， 也 可 以 
是 动词 (表示 “把 某 个 东西 装 进 铅 涉 ”[to put something in such a mental 
container] ) 。 事 实 上 ， 德 罗斯 (S. J. DeRose) 在 1988 年 报告 说 ， 在 布 
明 语 料 库 中 ， 只 有 11.5% 的 英语 词 型 (word type) 是 歧义 的 ，40% 以 上 
的 词 例 Cword token) 是 歧义 的 。 根 据 弗 兰 西 斯 (Francis) 和 库 塞 拉 











(Kucera) 1982 年 的 研究 结果 ， 德 罗斯 在 1988 年 给 出 了 如 下 的 标记 歧义 
表 : 


Jal LC 只 有 1 个 标记 ) 35 340 
E XC 2—1 Aic ) 4 100 
2 个 标记 3 700 
3 ^4 iiU 264 
4 个 标记 61 
5 ^4 12 
6 个 标记 2 
7 个 标记 1 ( “still” ) 


图 3.28 在 布朗 语料库 中 按 歧义 程度 排列 的 词 型 《word type) 数目 








幸运 的 是 ， 在 占 40% 的 歧义 词 例 Cword token) 中 ， 有 不 少 是 很 容 
易 消 解 歧义 的 。 这 是 因为 跟 一 个 单词 相关 联 的 不 同 的 标记 的 使 用 情况 并 
不 是 完全 等 同 的 。 例 如 ，a 可 以 是 一 个 限定 词 ， 或 者 可 以 是 字母 a( 作 为 
首 字 母 缩写 词 的 一 部 分 ， 或 者 处 于 开头 ) ， 但 是 ，a 作 为 限定 词 意思 和 更 
加 第 见 。 














大 多 数 的 标注 算法 可 以 归纳 为 两 类 : 一 类 是 基于 规则 的 标注 算法 
(rule-based tagger) ， 一 类 是 基于 统计 的 标注 算法 (statistic-based 
tagger) 。 





基于 规则 的 标注 算法 一 般 部 包括 一 个 手工 制作 的 卜 义 消解 规则 的 数 
据 库 ， 这 些 规则 要 说 明 牙 义 消解 的 条 件 。 例 如 ， 当 一 个 歧义 单词 的 前 面 
征 限定 词 时 ， 束 可 以 判断 它 是 名 词 ， 而 不 是 动词 。 





基于 统计 的 标注 算法 在 解决 标注 歧义 问题 时 ， 一 般 都 使 用 一 个 训练 
语料库 ， 来 计算 在 给 定 的 上 下 文中 ， 某 一 给 定单 词 具 有 某 一 给 定 标记 的 


概率 。 一 些 基于 统计 的 标注 系统 是 建立 在 隐 马 尔 可 夫 模 型 (Hidden 
Markov Model) 的 基础 上 的 ， 可 以 叫做 HMM 标 注 系统 ， 也 叫做 最 大 似 
然 度 标注 系统 ， 或 马尔 可 夫 模 型 标注 系统 。 


最 后 ， 还 有 一 种 叫做 基于 转换 的 标注 算法 (transformation-based 
tagger) ， 这 种 算法 是 微软 公司 的 布 里 尔 〈Eric Brill) 在 1995 年 提出 
的 ， 也 叫做 布 里 尔 标注 算法 (Brill tagger) 。 布 里 尔 标注 算法 具有 上 述 
两 种 标注 算法 的 特点 。 与 基于 规则 的 标注 算法 相似 ， 这 种 算法 要 根据 规 
则 来 决定 一 个 有 卜 义 的 单词 应 该 有 具有 什么 样 的 标记 。 与 基于 统计 的 标注 
算法 相似 ， 这 种 算法 有 一 个 部 分 是 用 于 机 器 学 习 的 ， 规 则 可 以 由 前 面 已 
经 标注 好 的 训练 语料库 中 自动 地 推导 出 来 。 








基于 规则 的 词性 标注 主要 是 根据 语言 学 规则 对 于 兼 类 词 进行 排 政 ， 
Y PARAS VT ARB 12: 3: BG BUE P LAP: 





e ATEÉGEHSUE: 秽语 中 各 类 词 的 形态 变化 不 尽 相 同 ， 因 
此 ， 对 于 发 生 了 形态 变化 的 兼 类 词 ， 我 们 可 以 通过 它们 的 形态 变化 方式 
来 判定 它们 所 属 的 词类 。 例 如 ，book 是 一 个 动词 一 名 词 兼 类 词 ， 但 是 ， 
在 I have booked a room 中 ， 由 于 booked 采 取 了 过 去 分 词 的 变化 形式 ， 作 
为 名 词 的 book 不 可 能 有 这 样 的 形式 ， 所 以 ， 我 们 可 以 判定 这 个 booked 是 
动词 ， 它 的 词义 不 是 “ 书 ”， 而 是 “预定 ”。 这 种 基于 形态 的 排 卜 方法 ， 基 
本 上 用 不 着 考虑 上 下 文 ， 判 定 起 来 直接 而 迅速 。 








E 基于 上 下 文 环 境 的 排 玉 方法: 词 的 上 下 文 就 是 词 的 分 布 
(distribution〉， 词 的 分 布 是 一 种 广义 的 形态 ， 它 反映 了 词 的 句法 功 


eu 
HE o 








例如 ， 英 语 名 词 的 前 面 可 以 出 现 数 词 、 形 容 词 、 限 定 词 ， 根 据 这 样 





的 分 布 环 境 ， 我 们 就 可 以 判定 动词 一 名 词 兼 类 词 是 名 词 。 








英语 形容 词 的 前 面 可 以 出 现 副词 ， 而 名 词 前 面 不 能 出 现 副词 ， 根 据 
这 样 的 分 布 环境 ， 我 们 就 可 以 判定 形容 词 一 名 词 兼 类 词 是 形容 词 。 


英语 动词 的 前 面 可 以 出 现 助 动词 ， 根 据 这 样 的 分 布 环 境 ， 我 们 残 可 
以 判定 助动词 后 面 的 动词 一 名 词 兼 类 词 是 动词 。 





在 上 下 文 环境 “X + and + ADJ” 中 ， 如 果 X 是 一 个 动词 一 形容 词 兼 类 
词 ， 由 于 与 它 并 列 地 连接 的 词 是 形容 词 ADJ， 因 此 ， 可 以 判定 X 也 是 形 
容 词 。 








e 基于 语义 的 排 皮 方法 : 词 的 语义 搭配 关系 存在 着 一 定 的 优先 关 
系 。 例 如 ， 动 词 buy〈 买 ) 之 后 的 宾语 一 般 为 事物 Ching) ， 因 此 ， 名 
词 应 该 优先 ， 上 有 具体 地 说 ， 如 果 buy 后 面 是 动词 一 名 词 羔 类 词 book， 而 
book 是 名 词 时 它 在 词典 中 的 定义 是 “a collection of sheets of paper fastened 
together as a thing to be read”， 那 么 ，book 是 名 词 的 可 能 性 远 远 大 于 是 动 
词 的 可 能 性 ， 我 们 可 以 判定 它 是 名 词 。 





1971 年 ， 美 国 布衣 大 学 的 格林 讷 (Greene) ME (Rubin) 建立 

了 TAGGIT 系 统 ， 采 用 了 86 个 词类 标记 ， 利 用 了 3300 条 上 下 文 框架 规则 
(context frame rules) KHER HAA, HERNE EKIA. 
19834, X4yb7K (Mashal) . HLA} CG. Leech) 和 加 塞 德 CR. Garside) 
等 人 建立 了 CLAWS 系 统 ， 用 概率 统计 的 方法 来 进行 自动 词性 标注 ， 他 
们 使 用 了 133x133 的 词类 共 现 概率 矩阵 ， 通 过 统计 模型 来 消除 兼 类 词 皮 
义 ， 自 动 标注 的 正确 率 达 到 了 96%。1988 年 ， 德 洛斯 CS. J. DeRose) 对 
CLAWS 系 统 作 了 一 些 改进 ， 利 用 线性 规划 的 方法 来 降低 系统 的 复杂 

性 ， 提 出 了 VOLSUNGA 算 法 ， 大 大 地 提高 了 处 理 效率 ， 使 自动 词性 标 














注 的 正确 率 达 到 了 实用 的 水 平 。 


汉语 的 目 动 词性 标注 的 研究 起 步 较 晚 。 近 年 来 ， 清 华 大 学 、 山 西 大 
学 、 北 京 大 学 在 这 方面 作 了 大 量 的 研究 ， 取 得 了 民 好 的 成 绩 。 





目 动 词类 标注 的 关键 是 排除 兼 类 词 改 义 。 这 个 问题 ， 同 时 也 是 汉语 
研究 的 难 扣 之 一 。 在 这 一 节 中 ， 我 们 根据 有 关 文 献 ， 将 这 方面 的 研究 作 
一 概括 性 的 综述 。 


一 般 地 说 ， 现 代 汉语 的 词 可 分 为 15 类 : 名 词 、 时 间 词 、 方 位 词 、 数 
词 、 量 词 (包括 名 量词 和 动量 词 、、 代 词 、 区 别 词 、 动 词 、 趋 向 动词 、 
能 愿 动词 、 形 容 词 、 副 词 、 介 词 、 连 词 、 助 词 (包括 结构 助词 、 动 态 助 
词 、 语 气 助词) 。 


据 东北 工学 院 姚 天 顺 统 计 ， 汉 语 中 各 种 兼 类 现象 有 37 和 种， 山西 大 学 
全 玮 统计 ，《 现 代 汉 语 八 百 词 》 一 书 所 收 的 800 多 个 词 中 ，22.5% 的 词 有 
兼 类 现象 ， 约 50 多 种 类 型 。 














清华 大 学 黄 昌 宁 等 根据 《中 学 生词 典 》14 000 个 词 条 的 统计 ， 共 有 
27 种 兼 类 现象 。 我 们 下 面 列 出 这 27 种 兼 类 现象 的 词 条 数 以 及 它们 在 兼 类 
现象 中 所 占 的 比例 。 


(1)“ 动 一 名 ” 兼 类 : 408 个 ， 占 49.8%。 
(2)“ 动 一 形 ” 兼 类 : 167 个 ， 占 20.4%。 
(3)“ 名 一 形 * 兼 类 : 128 个 ， 占 15.6%。 


(4)“ 形 一 副 ”* 兼 类 : 32 个 ， 占 3.9%。 


(5) 


(6) 


(7) 


(8) 


(9) 


(10) 


(11) 


(12) 


(13) 


(14) 


(15) 


(16) 


(17) 


(18) 


(19) 


(20) 


(21) 


“ 动 _ 副 " 兼 类 ; 
PACK: 
“Bil HOR: 
RHP HK: 
IE HE: 
“ 动 一 连 " 兼 类 
“ 形 一 连 " 兼 类 
eA HK: 


"dk ee. 
"sh AV AE: 
“ 代 一 名 "说 类 ; 
“ 动 一 趋向 (动词 ) " 辣 类 :1 个 ， 


“BJP ACK: 


18415 
16%, 
5^ 
215 


2 个 ， 


: 2 个 ， 


: 2 个 ， 


2 个 ， 
2 个 ， 
1 个 ， 


1 个 ， 


1 个 ， 


«A —JE— 2 


“名 一 形 一 副 * 兼 类 : 


“ 动 一 副 一 名 ” 兼 类 : 


“ 动 一 形 一 副 * 兼 类 : 


占 2.2%。 
占 2.0%。 
占 0.60%。 
占 0.37%。 
占 0.24%。 
占 0.24%。 
占 0.24%。 
占 0.24%。 
占 0.24%。 
占 0.12%。 


占 0.12%。 


占 0.12%。 


13 个 ， 占 1.6%。 


5 个 ， 占 0.60%。 
3 个 ， 占 0.37%。 


2 个 ， 占 0.24%。 


占 0.12%。 


(22) 


(23) 


(24) 


(25) 


(26) 


(27) 


“ 形 一 名 一 量 " 兼 类 ; 
“ 动 一 介 一 副 " 兼 类 ; 
“名 一 动 一 介 ” 兼 类 ; 
“名 一 连 一 副 " 兼 类 ; 





“ 动 一 连 一 名 ” 兼 类 : 


1 个 ， 
1 个 ， 
1 个 ， 
1 个 ， 


Fis 


"== j ET 1 个 , 


14 000 个 词 条 中 ， 兼 类 





清华 大 学 黄 昌 宁 等 还 统计 了 《 兼 类 





词 ， 共 33 种 兼 类 现象 。 


(1) 


(2) 


(3) 


(4) 


(5) 


(6) 


(7) 


“ 动 一 名 ” 兼 类 : 1464, 
“ITB FRA: 96 个 ， 
"JEU ARAS: 41 个 ， 
“ 形 一 副 *” 兼 类 : 18 个 ， 
“ 动 一 介 ” 兼 类 : 16 个 ， 


“ 动 一 副 *" 兼 类 : 9 个 ， 


“名 一 形 一 动 " 兼 类 : 


词 条 共 800 个 ， 


9 个 ， 


占 0.12%。 
占 0.12%。 
占 0.12%。 
占 0.12%。 
占 0.12%。 


占 0.12%。 


词 选 释 》 


前 8 种 兼 类 现象 是 : 
占 37.6%。 
占 24.3%。 
占 10.4%。 
占 4.55%。 
占 4.04%。 


占 2.27%。 


占 2.27%。 


占 总 词 条 数 的 5.86%。 


处 ”所 收 的 396 个 兼 类 


(8)“ 名 一 副 ” 兼 类 : 84, 12.02%. 


前 8 种 兼 类 现象 共有 兼 类 词 346 个 ， 占 该 书 所 收 兼 类 词 总 数 的 
87.4596. 





由 于 收 词 原 则 不 同 ， 词 的 分 类 标准 不 同 ， 上 述 的 统计 并 不 是 完 
的 、 精 确 的 ， 它 们 仪 仅 反 映 了 汉语 羔 类 现象 的 大 致 情况 ， 实 际 情况 鸭 怕 
要 复杂 得 多 。 但 是 ， 从 上 述 统计 中 我 们 至 少 可 以 看 出 如 下 的 一 些 规律 。 





C1) 兼 类 词 只 占 汉语 词汇 的 很 小 一 部 分 。《 现 代 汉 语 八 百 词 》 只 
收 了 一 些 最 常用 的 词 ， 因 而 兼 类 词 所 占 的 比例 高 达 22.5%. 但 是 ， 如 果 扩 
大 词汇 容量 ， 这 个 比例 将 会 大 大 下 降 。《 中 学 生词 典 》 收 词 14 000 条 ， 
兼 类 词 所 占 的 比例 仅 为 5.86%。 词 典 收 词 越 多 ， 兼 类 词 的 比例 还 要 下 
降 。 所 以 ， 从 汉语 词汇 的 总 体 来 考虑 ， 兼 类 词 所 占 的 比例 是 不 大 的 。 


(2) 常用 词 兼 类 现象 严重 。 往 往 越 是 常用 的 词 ， 不 同 的 用 法 就 越 
多 ， 兼 类 现象 也 就 越 多 。 所 以 ， 尺 管 兼 类 现象 只 占 了 汉语 词汇 的 很 小 一 
部 分 ， 但 兼 类 词 使 用 的 频繁 程度 并 不 很 低 。 








(3) 兼 类 现象 纷 系 ， 复 再 面 很 广 ， 涉 及 了 汉语 中 的 大 部 分 词类 。 


(4) 兼 类 现象 的 分 布 很 不 一 致 。《 中 学 生词 典 》 中 含 10 个 词 条 以 
上 的 兼 类 现象 只 有 7 种 :“ 动 一 名 ” 兼 类 、“ 动 一 形 ” 兼 类 、“ 名 一 形 ” 兼 
类 、“ 形 一 副 * 兼 类 、“ 动 一 副 * 兼 类 、“ 名 一 副 ” 兼 类 、“ 名 一 形 一 动 ” 兼 
类 ， 但 是 它们 却 占 了 820 个 兼 类 词 的 95.5%。《 兼 类 词 选 释 》 中 的 前 8 种 
兼 类 词 占 了 396 个 兼 类 词 的 87.45%。 在 各 种 兼 类 现象 中 ,“ 名 一 动 * 兼 类 
现象 最 为 普遍 ， 在 《中 学 生词 典 》 中 占 兼 类 词 总 数 的 49.8%， 在 《 兼 类 
词 选 释 》 中 占 了 兼 类 词 总 数 的 37.6%， 而 有 些 兼 类 现象 ， 如 “ 动 一 介 ” 莱 
类 、“ 动 一 代 ” 兼 类 ， 包 含 的 词 条 数 寥寥 无 几 ， 所 占 的 比例 微乎其微 。 











上 面 情 况 说 明 ， 不 同 的 词类 在 兼 类 问题 中 的 地 位 不 是 等 同 的 。 有 些 
词类 ， 莱 类 现象 严重 ， 解 决 其 兼 类 问题 比较 困难 ， 而 这 些 困 难 的 莱 类 问 
题 ， 恰 恰 是 兼 类 现象 中 最 基本 的 问题 ， 可 以 把 这 些 词类 ， 叫 做 “基本 兼 
类 词类 ”。 它 们 是 : 名 词 、 方 位 词 、 人 代词、 动词 、 能 愿 动 词 、 形 容 词 、 
副词 、 介 词 、 连 词 等 九 类 词 。 另 一 些 词类 ， 或 者 其 兼 类 问题 的 解决 比较 
容易 ， 或 者 其 兼 类 现象 极 少 ， 如 时 间 词 中 ， 仅 “过 去 ”一 词 兼 属 “ 时 间 
Cal) 一 趋向 (动词 ) 一 动 ( 词 ) ”三 类 ， 可 以 把 这 些 词 类 ， 叫 做 * 非 基 
本 兼 类 词类 ”。 它 们 是 : 时 间 词 、 数 词 、 量 词 、 区 别 词 、 趋 向 动词 、 助 


词 等 六 类 词 。 











菩 类 词 所 含 兼 类 词类 的 个 数 各 有 不 同 ， 有 的 兼 类 词 只 含 两 个 兼 类 词 
类 ， 有 的 兼 类 词 含 有 三 个 兼 类 词类 。 某 一 类 兼 类 现象 所 含 兼 类 词类 的 个 
数 叫 做 兼 类 长 度 。 兼 类 长 度 等 于 2 而 且 所 含 羔 类 词类 均 属 基 本 兼 类 词类 
的 兼 类 类 型 ， 叫 做 “ 兼 类 基本 型 "*。 如 果 我 们 解决 了 兼 类 基本 型 的 兼 类 问 
题 ， 实 际 上 就 等 于 解决 了 大 部 分 的 兼 类 问题 ， 而 其 它 的 兼 类 问题 ， 也 可 
设法 将 其 转化 为 兼 类 基本 型 ， 这 样 ， 避 ® 可 以 抓 住 羔 类 现象 中 的 核心 问 
题 ， 通 过 少量 的 规则 来 处 理 尽 可 能 多 的 兼 类 现象 。 























兼 类 基本 型 有 以 下 几 种 : 
(1) *a—/44 "325 








这 种 兼 类 基本 型 最 为 常见 。 兼 类 词 多 由 动词 转化 而 来 。 例 如 ,“ 报 
告 ， 编 辑 ， 装 备 ， 爱 好 ， 刺 激 ， 工 作 ， 突 破 ” 等 。 


(2) “TB” FRR 





这 种 兼 类 基本 型 次 常见 。 兼 类 词 主要 由 形容 词 转化 而 来 ， 形 容 词 后 
知 带 宾语 ， 则 认为 其 兼 有 动词 的 类 。 例 如 ,“ 多 ， 苦 ， 严 肃 ， 繁 荣 ， 普 


(3)“ 名 一 形 ” 兼 类 





这 种 羔 类 基本 型 第 见 。 兼 类 词 多 由 形容 词 转化 而 来 。 例 如 ,，“ 秘 
， 规 矩 ， 痛 苗 ， 困 难 ， 烦 恼 ， 科 学 ”等 。 
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(4)“ 形 一 副 * 兼 类 








有 的 形容 词 在 修饰 谓词 性 成 分 时 ， 意 义 有 所 改变 ， 人 句法 功能 与 副词 
相 [=] > 


形成 “ 形 一 副 ”* 羔 类 。 例 如 ,“ 直 ， 怪 ， 老 ， d. A, 6. D de. 
HE, Es q 9. 


试 比较 : 


路 很 直 〈“ 直 ”为 形容 词 ) 
ft ELE CEPI RO 


(5) “ 动 一 介 ” 兼 类 


现代 汉语 中 的 很 多 介词 是 由 动词 发 展 而 成 的 ， 因 此 ， 介 词 常常 与 动 
词 兼 类 。 例 如 ，“ 在 ， 朝 ， 向 ， 往 ， 顺 ， 对 ， 为 ， 跟 ， 随 着 * 等 。 


试 比较 : 





我 在 家 〈“ 在 ?为 动词 ) 
我 在 办 公 室 开 会 〈“ 在 ?为 介词 ) 


(6)“ 介 一 副 ” 羔 类 


这 种 兼 类 基本 型 数目 有 限 ， 且 多 为 单 音 词 。 例 如 ,“ 连 ， 束 ， 至 ， 


从 ”等 。 
试 比较 ; 


他 从 日 本 来 (“从 ”为 介词 ) 
他 从 不 抽烟 (“从 ”为 副词 ) 


(7)“ 名 一 副 * 兼 类 
这 种 兼 类 词 不 多 见 。 例 如 ,， “极端 ”。 
试 比较 : 


你 不 要 走 忆 一 个 极端 (“极端 ”为 名 词 ) 
他 对 顾客 极端 热忱 〈“ 极 问 ? 为 副词 ) 


(8) “oil” 3&2 
这 种 兼 类 基本 型 数目 有 限 。 例 如 ,“ 断 ， 还 ， 越 ， 比 较 ? 等 。 
试 比较 : 


老人 断 了 气 (“ 断 "为 动词 ) 
断 无 此 事 (“ 断 ”为 副词 ) 


(9)“ 代 一 副 ” 兼 类 


代词 中 有 些 指 别 词 ， 亦 可 修饰 谓词 性 成 分 。 例 如 , “每 ， 各 ， 本 ， 


^p KIPE IRF UCR. 





试 比较 : 


本 编辑 部 概 不 负责 〈“ 本 ”为 代词 ) 
我 本 S 〈“ 本 ”为 副词 ) 


(10)“ 能 愿 (动词 ) 一 动 * 兼 类 


有 的 能 愿 动词 可 以 融 体 词性 宾语 。 例 如 , "SÍ. A. A, SH. X 
配 ” 等 ， 属 于 此 类 。 


试 比 较 : 


他 要 去 美国 (“要 ”为 能 愿 动词 ) 
他 要 这 本 书 (“ 要 ”为 动词 ) 


(11)“ 介 一 连 ” 羔 类 


这 一 类 兼 类 仅 有 “ 跟 ， 和 ， 同 ， 与 ? 几 个 词 ， 它 们 使 用 频率 很 高 ， 区 
别 起 来 相当 困难 。 


试 比较 : 


我 和 小 张 都 会 德语 (“和 ”为 连词 ) 
我 和 小 张 说 了 这 件 事 (“和 ”为 介词 ) 


(12)“ 副 一 连 ” 兼 类 


这 一 类 兼 类 如 “不 过 ， 或 ， 或 者 ， 并 ， 尽 管 ， 只 是 ”等 ， 区 别 起 来 比 
较 困 难 。 





试 比较 : 


这 个 建议 对 他 们 或 有 好 处 (“或 ”为 副词 ) 
你 或 他 都 可 以 出 国 (“ 或 ”为 连词 ) 


(13)“ 方 位 GR) 一 动 * 兼 类 





这 一 类 兼 类 虽然 只 包含 “< 上， 下 ”两 个 词 ， 但 由 于 “在 ... 上 ”、“ 在 .…. 
下 ”这 一 类 搭配 很 常见 ， 有 时 可 能 产生 混乱 ， 所 以 将 其 列 为 兼 类 基本 
AL. 


试 比较 : 


我 上 学 (“上 ”为 动词 ) 

我 在 昆明 上 学 (“上 ”为 动词 ) 
我 在 床上 (“上 ”为 方位 词 ) 
我 在 床上 看 书 (“上 ”为 方位 词 ) 





非 基 本 兼 类 词类 的 兼 类 问题 比较 容易 解决 ， 因 为 它们 的 前 一 个 或 后 
一 个 句法 单元 〈 通 种 是 一 个 单词 )》 有 十 分 强 的 颖 附 性 ， 可 以 根据 这 些 句 
法 单元 来 区 别 兼 类 现象 。 例 如 , “本” 兼 属 代 词 、 副 词 、 量 词 三 类 ， 我 们 

















只 要 看 它 的 直接 前 趋 词 是 否 为 数 词 ， 就 可 以 判断 它 是 售 为 量词 。 叉 








如 ，“ 微 ” 兼 属 区 别 词 、 副 词 两 类 ， 如 果 它 的 直接 后 继 词 为 名 词 ， 就 瑟 上 
可 以 判断 它 为 区 别 词 。 因 此 ， 在 处 理 兼 类 问题 时 ， 可 以 根据 先 易 后 难 的 





原则 ， 先 解决 这 一 部 分 的 问题 ， 就 可 以 大 大 简化 处 理 的 过 程 。 这 种 方 
ik, MMRR a] LETS” o 


例如 ， 
“本 ”为 “ 代 一 副 一 量 ” 兼 类 词 ， 可 先 过 滤 量 词 : 


〈 代 一 副 一 量 ) 5 《〈 代 一 副 ) 


“ 微 * 为 “区 别 一 副 * 兼 类 词 ， 可 先 过 滤 区 别 词 : 


(区 别 一 副 ) — 
“得 "为 “能 愿 一 动 一 助 " 兼 类 词 ， 可 先 过 


《能 愿 一 动 一 助 ) (能 愿 一 动 ) 





“ 回 ” 为 “趋向 一 动 一 量 ”* 羔 类 词 ， 可 先 过 
(趋向 一 动 一 量 ) 2 3] 

过 ”为 “趋向 一 动 一 助 * 兼 类 词 ， 可 先 过 
(趋向 一 动 一 助 ) = 3) 


“来 ”为 “趋同 一 动 一 方位 一 助 一 数 ” 兼 类 
词 和 数 词 : 


才 滤 助词 : 


才 滤 趋 癌 动 词 和 量词 : 


十 滤 趋同 动词 和 助词 : 


词 ， 可 先 过 


〈 趋 问 一 动 一 方位 一 助 一 数 ) -、( 动 一 方位 ) 


半 滤 趋 回 动词 、 助 


经 过 上 述 的 过 滤 之 后 ， 如 果 兼 类 长 度 仍然 大 于 2， 可 将 剩余 部 分 分 


解 为 行 干 个 兼 类 基本 型 进一步 加 以 解决 。 





例如 , “该 "是 “能 愿 一 动 一 代 ” 兼 类 词 ， 兼 类 长 度 大 于 2， 可 分 解 


(能 愿 一 动 一 代 ) = COR (能 愿 一 动 ) 一 代 ) 





其 中 ， “OR” 是 逻辑 运算 符 ， 表示 “ 析 取 ”运算 。 








动 一 名 ” 兼 类 词 ， 羔 类 长 上 度 大 于 2， 可 分 解 为 : 


“ 今 » 是 “能 愿 





(能 愿 一 动 一 名 ) = COR (OR 能 愿 一 动 ) 一 名 ) 


COR ( 动 一 名 ) 一 能 愿 ) ) 


“多 ”是 “ 形 一 副 一 动 一 数 ” 羔 类 词 ， 兼 类 长 度 大 于 2， 可 先 过 小 ， 后 


分 解 。 
先 过 滤 掉 “ 数 词 ?: 
〈 形 一 副 一 动 一 数 ) ~ 〈 形 一 副 一 动 ) 
然后 再 分 解 : 
( 形 一 副 一 动 ) + (OR (COR“〈 形 一 副 ) 一 动 ) 
COR《〈 形 一 动 ) 一 副 ) 
(OR 副 一 动 ) 一 形 ) 


对 于 极 个 别 的 兼 类 现象 ， 徘 上 述 方法 解决 不 了 ， 就 要 采用 一 些 特殊 
的 个 性 规则 来 解决 。 








自动 切 词 、 自 动词 类 标注 是 汉语 书面 语 自动 形态 分 析 主 要 内 容 。 通 
过 这 样 的 自动 形态 分 析 ， 我 们 就 能 够 将 一 个 没有 经 过 任何 预 处 理 的 汉语 
真实 文本 (又 可 称 为 “ 生 语 料 ”) ， 改 变 为 一 个 词 与 词 之 间 有 空白 的 、 每 
个 词 都 标 有 词类 和 语义 义 项 代码 的 文本 (又 可 称 为 “ 熟 语 料 ”) 。 把 生 语 
料 改变 为 熟 语 料 之 后 ， 熟 语 料 文本 就 可 为 进一步 进行 自动 句法 分 析 和 语 











义 分 析 提 供 民 好 的 条 件 ， 这 是 汉语 上 自然 语言 自动 处 理 的 极为 有 用 的 资 
源 ， 它 对 于 汉 外 机 器 翻译 和 计算 机 的 汉语 目 然 语 言 理解 ， 痢 是 非常 重要 
的 。 











第 六 万 ”基于 统计 的 目 动 标注 


我 们 前 面 所 讲 过 的 上 自然 语言 形态 分 析 中 所 用 的 自动 切 分 、 目 动词 类 
标注 、 目 动词 义 排 到 等 方法 ， 对 于 大 规模 真实 文本 的 语 料 的 目 动 标注 是 
很 有 意义 的 。 








但 是 ， 我 们 前 面 所 用 的 方法 ， 基 本 上 是 基于 规则 的 理性 主义 的 方 
法 ， 把 这 种 方法 用 于 大 规模 真实 文本 的 自动 标注 ， 其 标注 的 正确 率 不 会 
很 高 。 例 如 ，1971 年 格林 讷 和 和 鲁 宾 设计 的 词性 标注 系统 TAGGIT， 采 用 
有 86 个 标记 的 标记 集 和 用 于 排除 兼 类 词 歧 义 的 3 ”300 条 规则 ， 对 美国 的 
布朗 语料库 进行 自动 词性 标注 ， 标 注 正 确 率 仅 是 77%。 因 此 ， 很 有 必要 
对 这 种 基于 规则 的 理性 主义 方法 加 以 改进 ， 于 是 ， 学 者 们 提出 了 统计 的 
方法 。20 世 纪 80 年 代 初 ， 玛 沙 尔 、 里 奇 和 加 塞 德 等 人 设计 了 第 一 个 利用 
统计 方法 的 词性 标注 系统 CLAWS， 对 LOB 语 料 库 CLancaster-Oslo- 
Bergen Corpus) 进行 自动 标注 ， 一 下 子 束 把 标注 正确 率 提高 到 96%， 比 
基于 规则 的 TAGGIT 系 统 提 高 了 将 近 20%。 最 近 他 们 同时 考察 三 个 相 邻 
标记 的 同 现 频率 ， 使 自动 语法 标注 的 正确 率 达 到 99.5%。 这 个 指标 已 经 
超过 了 和 人工 标 注 所 能 达到 的 最 高 正确 率 。 由 此 不 难看 出 采用 统计 方法 的 
优越 性 。 














很 久 以 前 概率 方法 束 用 来 做 标注 了 。1965 年 ， 斯 托 尔 葡 (Stolz) 等 
首先 使 用 概率 来 进行 标注 。1976 年 ， 巴 乐 (Bahl) 和 梅 尔 塞 尔 
(Mercer) 研制 出 使 用 韦 特 比 解码 (Viterbi decoding) 的 完全 的 概率 标 
注 系 统 。 在 20 世 纪 80 年 代 ， 各 种 基于 统计 的 标注 系统 纷纷 建立 起 来 。 


下 面 我 们 介绍 几 种 基于 统计 的 自动 标注 方法 。 


1. CLAWS 算 法 


词性 标注 系统 CLAWS 采 用 了 CLAWS 算 法 。CLAWS 算 法 是 “成 分 似 
然 性 自动 词性 标注 系统 ”(Constituent-Likelihood Automatic Word-tagging 
System) 的 简称 。 这 种 算法 是 1983 年 由 玛 沙 尔 〈Mashall) 在 给 LOB 语 料 
库 作 目 动词 性 标注 时 提出 的 。 他 使 用 的 标记 集 有 133 个 标记 。 具 体 做 法 
是 : 先 从 等 标注 的 LOB 语 料 库 中 选 出 来 部 分 语 料 ， 叫 做 “训练 
4E" (Training Set) , ， 对 训练 集中 的 语 料 逐 词 进 行 词性 的 人 工 标 注 ， 然 
后 利用 计算 机 对 训练 集中 的 任意 两 个 相 邻 标记 的 同 现 概率 进行 统计 ， 形 
成 一 个 相 邻 标记 的 同 现 概率 和 矩阵。 进行 自动 标注 时 ， 需 要 从 LOB 语 料 库 
中 选 出 来 男 外 一 些 语 料 作 为 “测试 集 ”(Test Set) ， 系 统 从 测试 集 的 输入 
文本 中 顺序 地 截取 一 个 有 限 长 度 的 词 囊 ， 这 个 词 串 的 首 词 和 尾 词 的 词性 
应 该 是 唯一 的 。 最 后 ， 利 用 同 现 概率 十 阵 提供 的 数据 来 计算 这 个 词 串 产 
生 的 每 个 可 能 标记 的 概率 积 ， 并 选择 概率 积 最 大 的 标记 串 作 为 输出 绪 
果 。LOB 语 料 库 是 拥有 各 类 文体 的 瑞 国 吴语 语料库 ， 库 容量 为 100 万 
词 ， 用 CLAWS 算 法 来 对 整个 LOB 语 料 库 进行 自动 词性 标注 ， 标 注 正确 
率 大 大 地 提高 

















我 国 山西 大 学 刘 开 瑛 等 ， 用 CLAWS 算 法 选择 10 万 汉字 的 汉语 语 料 
库 作 为 训练 集 ， 进 行人 工 标注 ， 他 们 使 用 的 标记 集 有 174 个 标记 。 有 具体 
做 法 可 分 为 如 下 几 步 : 


(1) 建立 标记 的 同 现 概率 矩阵 : 利用 计算 机 对 训练 集中 的 任意 两 
个 相 邻 标记 的 同 现 概 率 进 行 统计 ， 形 成 如 下 174 x 174 的 同 现 概率 矩阵 P 


其 中 ，DB 表示 标记 为 i 的 词 与 标记 为 j 的 词 的 同 现 概率 。 计 算 公式 为 


标记 i 与 标记 j 的 同 现 次 数 
” 标记 1 与 标记 j 的 出 现 次 数 
对 于 所 有 的 i 和 j, P;20, HYP,;-1. 





x 100% 








设 NG 是 普通 名 词 的 词类 标记 ，RN 是 体 词性 代词 的 词类 标记 ， 
USDE 是 结构 助词 “的 ”的 词类 标记 ，USDI 结 构 助词 “地 ”的 词类 标记 ，YE 
是 句 末 语 气 词 的 词类 标记 ， 通 过 对 训练 集中 的 语 料 进 行人 工 标 注 统计 得 
出 的 部 分 同 现 概率 矩阵 如 下 : 





YE 


NG 


RN 


USDE 


USDI 





0.219 388 
0.248 314 


0.591 746 
0. 009 434 
0.006 410 





0. 005 218 
0. 006 744 
0.015 143 
0. 009 434 
0. 000 001 


图 3.29 [HESS AB RE 





(2) Æ RAHA: DOE PRR E ERK, JEA 


0. 089 402 
0. 086 450 
0. 000 001 
0. 000 001 
0. 000 001 


0. 000 580 
0. 000 001 
0. 000 001 
0. 000 001 
0. 000 001 


0. 002 203 
0. 001 839 
0. 003 266 
0. 000 001 
0. 000 001 











类 词 可 以 直接 通过 得 词典 的 办 法 进行 目 动 标注 。 共 收 非 兼 闫 词 8 ”000 多 
条 ， 每 个 词 条 只 包括 词 项 和 标记 两 项 。 








(3) 建立 兼 类 词 词 典 : 兼 类 词 在 汉语 词汇 中 所 占 比 例 不 大 ， 但 是 
覆盖 面 广 ， 它 们 是 自动 标注 的 难点 。 共 收 兼 类 词 1 ”500 多 个 ， 每 个 词 条 
除 词 项 和 若干 个 兼 类 的 词类 标记 之 外 ， 还 要 注 明 相应 标记 在 训练 集 语 料 
中 的 出 现 概率 。 下 面 是 兼 类 词典 中 的 一 部 分 ，Bi 表 示 词 类 ，Ni 表 示 该 标 
记 的 出 现 概率 。 








B2 N2 





DC 0.022 
VG 0.038| VGN 0.308| VGV 0.019| VHF 0.231 
VGN 0.500 



































图 3.30 “ 兼 类 词 词 典 











上 图 中 ，D 是 普通 副词 的 词类 标记 ，DC 是 关联 性 副词 的 词类 标记 ， 
VG 是 一 般 动 词类 标记 ，VGN 是 带 名 词 宾 语 的 动词 的 词类 标记 ，VGV 是 
带动 词 宾 语 的 动词 的 词类 标记 ，VHF 是 动词 “无 ?和 “没有 ”的 词类 标记 。 














同 现 概 率 扎 阵 、 非 兼 类 词 词典 、 兼 类 词 词典 的 各 种 信息 ， 都 是 从 训 
练 集中 分 析 和 统计 而 得 出 的 ， 它 们 是 下 一 步 进 行 目 动 标注 的 依据 。 





(4) 确定 标记 路 段 : 从 这 一 步 开 始 进行 目 动 标注 。 


TRENERE AAIR isis BORA a] ta] SL, ZS TE 
中 所 有 的 词 标 出 从 词典 中 碍 出 的 相应 标记 。 


如 果 一 个 词 串 Wo ;, Wi, Woo ..., Was Wa Po Wo 和 Wi 都 是 非 
FEA], Wi, Wo > o Wy 古 n 个 兼 类 词 ， 则 称 这 个 词 串 是 一 个 标记 跨 


Bt (span) ， 标 记 跨 段 中 兼 类 词 的 个 数 n， 叫 做 该 标记 路 段 的 长 度 。 





在 词 串 Wo ;, W, Wo ..., Was Wa 中 ， 自 左 向 右 顺 次 取 每 个 词 的 


一 个 标记 ， 这 些 标记 可 形成 一 条 路 径 (path? ， 路 径 由 香干 段 边 组 成 ， 
在 路 径 的 每 一 段 边 上 ， 注 明 相 邻 标 记 之 间 的 同 现 概率 。 





例如 , “各 /地 /的 /监测 站 ?这 个 短语 可 以 形成 如 下 的 标记 路段: 
各 地 的 监测 站 


RES Ex» 
Eon M a 
"P ud YE d2 


图 3. 标记 跨 段 














“各 ”是 普通 名 词 ， 是 非 兼 类 词 ， pid SEE. “地 ?可 以 是 
Hi At], np ie ERA; “的 ?可 以 是 结构 助词 ， 也 可 
以 是 句 末 语 气 词 ， 是 兼 类 v une 是 非 兼 类 词 ， 位 于 
PRICES Bt HIZA Yii o Pu c 内 都 是 非 兼 类 词 ， 这 
两 个 非 兼 类 词 之 间 ， 共 有 两 个 兼 类 词 ， 所 以 ， 该 标记 路 段 的 长 度 是 2。 




















在 这 个 标记 器 段 中 ， 有 四 条 路 径 : 


We 1: al bl di 
RN —— NG —— PSDE —— Ne 
路 径 2: al b2 d2 
RN Ą= NG = TE = NE 
路 径 3: az cl dl 
RN ——- USDI —— DSDE, —— NG 
路 径 4: a2 c2 d2 
EN —— USDI —— XE, —— NG 
Ff A VI ZEE rh EVEREST Da) ES AREE, REPS SB ERI aL 
间 的 同 现 概 率 如 下 : 





al = 0.248314， a2 = 0.000001, 
b1 = 0.089402, b2 = 0.002203, 
c1 = 0.000001, c2 = 0.000001, 
d1 = 0.591746, d2 = 0.006410. 





(5) 选取 最 佳 路 径 : 标记 路 段 中 每 一 条 路 径 上 相 邻 标记 之 间 同 现 
概率 的 乘积 ， 可 以 近似 地 表示 出 该 路 径 中 各 标记 之 间 同 现 概 率 的 联合 分 
布 率 ， 同 现 概 率 乘 积 最 大 的 路 径 束 被 选 为 最 佳 路 径 。 








上 面 四 条 路 人 径 的 同 现 概率 乘积 如 下 : 
路 径 1: alxb1xd1 = 0.248314x0.089402x0.591746 


路 径 2: alxb2xd2 = 0.248314x0.002203x0.006410 


路 径 3:， a2xc1xd1 = 0.000001x0.000001x0.591746 


路 径 4:，a2xc2xd2 = 0.000001x0.000001x0.006410 





显而易见 ， 路 径 1 中 的 同 现 概率 乘积 最 大 ， 故 选 路 径 1 为 最 佳 路 径 ， 
其 标记 为 : RN-NG-USDE-NG。 


最 佳 路 径 中 的 标记 ， 也 就 是 该 标记 跨 段 中 的 词 串 的 目 动 标注 结果 。 
这 样 便 实现 了 语料库 的 自动 标注 。 





CLAWS 算 法 的 时 间 复 森 度 和 空间 复杂 度 都 比较 大 ， 随 看 标记 器 段 
长 度 的 增加 以 及 兼 关 词 标记 数目 的 增 大 ， 其 运行 效率 将 会 降低 。 


德 罗斯 (DeRose) 在 CLAWS 算 法 的 基础 上 ， 提 出 了 VOLSUNGA 算 
法 ， 进 一 步 提 高 了 自动 标注 的 正确 率 ， 使 自动 标注 达到 了 实用 的 水 平 。 





基于 统计 的 方法 基本 上 是 用 了 马尔 可 夫 语 言 模 型 ， 即 所 谓 的 人 元 语 
法 ”(n-gram) 模型 。n 元 语法 是 建立 在 n-1 阶 马尔 可 夫 模 型 上 的 一 种 概率 
语法 ， 它 通过 对 字符 串 中 n 个 字符 同 现 概率 的 统计 数据 ， 来 推断 句子 的 
结构 关系 。 当 n=1 时 ， 叫 一 元 语法 ， 当 n=2 时 ， 叫 二 元 语法 ， 当 n=3 时 ， 
叫 三 元 语法 。CLAWS 算 法 和 VOLSUNGA 算 法 所 使 用 的 语法 都 是 二 元 语 
法 。 


2. 基于 隐 马 尔 可 夫 模 型 的 目 动 标注 


另外 一 种 特定 的 基于 统计 的 上 自动 标注 算法 是 隐 马 尔 可 夫 模 型 
(Hidden Markov Model， 简 称 HMM) ， 或 HMM 标 注 算法 。 





在 所 有 的 基于 统计 的 标注 算法 后 面 的 直 党 是 “对 这 个 单词 选取 最 可 
能 的 标记 ?这 种 方法 的 最 简单 的 概括 。 


对 于 一 个 给 定 的 句子 或 单词 序列 ，HMM 标 注 算 法 选择 使 得 下 面 的 
公式 为 最 大 值 的 标记 序列 : 


P(word|tag) P(tag|previous n tags) (1) 


这 个 公式 说 明 ， 我 们 可 以 根据 当前 标记 (tag) 前 面 n 个 标记 的 情况 
(previous n tags) 以 及 当前 标记 Cag) 对 于 当前 词 Ccurrent word) 的 
似 然 度 来 决定 当前 词 应 当选 择 的 标记 。 





HMM 标 注 算法 一 般 是 针对 一 个 句子 而 不 是 针对 一 个 单词 来 选择 标 
记 序 列 的 ， 不 过 ， 为 了 论述 上 的 方便 ， 让 我 们 首先 来 看 一 看 HMM 标 注 
算法 是 怎样 把 一 个 标记 指派 给 一 个 单词 的 。 我 们 首先 给 出 基本 的 等 - 
然后 通过 一 个 例子 来 使 用 这 个 等 式 ， 最 后 再 说 明 为 什么 要 使 用 这 个 
式 。 





这 种 类 型 的 二 元 语法 HMM 标 注 算 法 对 于 单词 w， 选择 标 记 t，， 使 得 
对 于 给 定 的 前 面 的 标记 t; .1 和 当前 单词 w; ， 其 概率 最 大 : 
à, a argmaxP( | (2) 


尽管 我 们 下 面 要 讨论 某 些 简化 的 马尔 可 夫 假 定 ， 我 们 根据 等 式 
(2) ， 给 出 对 于 一 个 单独 标记 的 如 下 的 HMM 等 式 : 


t; = argmaxPX t, | t; , IP wel t, ) (3) 
J 


让 我 们 通过 例子 来 说 明 。 下 面 的 例子 中 ， 我 们 使 用 一 个 HMM 标 注 


算法 来 给 单词 race 指 派 恰 当 的 标记 “两 个 例句 都 取 自 布朗 语料库 ， 不 过 
稍微 做 了 简化 ) : 
Secretariat/NNP — is/VBZ  expected/VBN  to/TO race /VB 
tomorrow/NR P! 
要求 秘 书 处 明天 进行 比赛 ) 
People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN 


for/IN the/DT race /NN for/IN outer/JJ space/NN 
(人 们 继续 询问 外 层 空间 苋 赛 的 理由 ) 





在 第 一 个 例子 中 ，race 是 一 个 动词 (VB) ， 在 第 二 例子 中 ，race 是 
一 个 名 词 (NN) 。 


为 了 解释 这 个 例子 ， 我 们 假定 race 周 围 的 单词 都 已 经 由 某 种 机 制 进 
行 了 最 好 的 标注 作业 ， 它 们 都 得 到 了 恰如其分 的 标记 ， 而 只 有 单词 race 
是 没有 标记 的 。HMM 标 注 算法 的 二 元 语法 简单 地 假定 ， 标 注 问 题 可 以 
通过 观察 周围 的 单词 和 标记 来 解决 。 我 们 在 考虑 给 race 指 派 一 个 标记 的 
问题 时 ， 只 给 出 如 下 的 子 序列 : 








to/TO race/??? 


the/DT race/??? 


在 句子 Secretariat is expected to race tomorrow 中 ，race 可 以 标注 为 
VB 或 NN， 如 下 图 所 示 : 





Secretariat is expected to race tomorrow 
(b) | 
Secretariat is expected to race tomorrow 


图 3.32 ”race 的 标记 可 以 为 VB 或 NN 








现在 让 我 们 来 看 ， 如 何 把 等 式 应 用 于 我 们 的 例子 来 求 出 race 的 标记 。 等 
wA GB) 说 明 ， 如 果 我 们 试图 在 序列 to race 中 ， 对 于 race 的 标记 在 NN 和 
VB 之 间 进 行 选 择 ， 我 们 应 该 选择 下 面 两 个 概率 中 ， 概 率 比 较 大 的 一 个 
作为 race 的 标记 : 


P(VB|TO)P(racejVB) (4) 
和 
P(NN[TO)P(race|INN) (5) 


ER (30 以 及 它 的 实例 等 式 (4D 和 (5) 都 有 两 个 概率 : 一 个 概 
率 是 标记 序列 概率 Pt |t; .1 )， 一 个 概率 是 单词 的 似 然 度 P(wi [t )。 


对 于 race 来 说 ， 标 记 序 列 概率 PINNITO) 和 P(VBITO) 就 是 “对 于 给 定 
的 前 面 的 标记 ， 我 们 期 望 race 是 动词 〈 或 名 词 ) 的 概率 有 多 大 ? ”这 个 问 
题 给 我 们 的 回答 。 这 些 概率 可 以 通过 从 一 个 语料库 中 进行 计数 和 归 一 化 
的 方法 来 计算 。 我 们 可 以 预期 ， 动 词 比 名 词 更 多 地 跟随 在 TO 之 后 ， 
为 不 定式 动词 (to race, to run, to eat) 在 英语 中 很 普遍 。 名 词 也 可 能 跟 


随 在 TO 之 后 (walk to school, related to hunting) ， 但 是 这 种 情况 不 很 普 
Wi o 

为 了 使 我 们 更 加 充分 地 确信 这 种 预期 ， 我 们 把 布 明 语料库 和 
Switchboard 语 料 库 结合 起 来 观察 ， 得 到 如 下 的 概率 ， 它 们 说 明 ， 在 TO 
之 后 ， 动 词 出 现 的 概率 是 名 词 的 15 倍 : 





P(NN|TO) = 0.021 
P(VB|TO) = 0.34 


等 式 (3) 以 及 实例 等 式 CAD 和 (5) 中 的 第 二 部 分 是 词汇 的 似 然 
E: 单词 race 与 给 定 标记 的 似 然 度 ， 即 Prace|VB) 和 PGace|INN)。 注 意 ， 
这 个 似 然 度 项 目 不 是 问 “ 对 于 这 个 单词 ， 哪 一 个 是 它 最 可 能 的 标记 ? ”也 
就 是 说 ， 这 个 似 然 度 项 目 不 是 P(VB|race)。 我 们 应 该 计算 的 似 然 度 是 
P(race[VB)。 这 个 概率 与 我 们 的 直觉 有 些 相 左 ， 它 回答 的 问题 是 :“ 如 果 
我 们 期 望 一 个 动词 ， 那 么 ， 这 个 动词 是 race 的 可 能 性 是 多 少 ? ” 








这 里 是 把 布朗 语料库 和 Switchboard 语 料 库 结合 起 来 计算 出 的 词汇 似 


P(race|NN) = 0.000 41 
P(race|VB) = 0.000 03 


如 果 我 们 把 词汇 似 然 度 与 标记 序列 概率 相 乘 ， 我 们 可 以 看 出 ， 尽 管 
是 HMM 标 注 算 法 的 简单 的 二 元 语法 ， 也 能 够 正确 地 把 race 的 标记 确定 为 
VB， 尺 管 race 的 含义 为 VB 的 可 能 性 比较 小 : 


P(VB|TO)P(race|VB) = 0.34* 0.000 03 = 0.000 01 
P(NN|TO)P(race|NN) = 0.021* 0.000 41 = 0.000 007 


我 们 说 过 ， 一 个 真正 的 HMM 标 注 算法 不 应 该 只 针对 一 个 单独 的 单 
词 选 择 最 好 的 标记 ， 而 应 该 针对 整个 的 句子 选择 最 好 的 标记 序列 。 我 们 
己 经 有 了 针对 一 个 单词 的 HMM 标 注 算 法 的 直觉 ， 现 在 让 我 们 给 出 其 完 
全 的 等 式 。 











一 般 说 来 ， 我 们 使 用 韦 特 比 近似 方法 ， 为 每 一 个 句子 选择 概率 最 大 
的 标记 序列 。 因 此 ， 这 种 方法 假定 ， 对 于 句子 中 给 定 的 单词 序列 
) ， 我 们 来 计算 每 一 个 句子 中 概率 最 大 的 标记 序列 T=ti , ty ya t : 


A 


T = argmaxP( TI W) 
Ter 
根据 贝 叶 斯 (Bayes) 定理 ，P(TIw) 可 以 表示 为 ; 


PLT) WIT) 
PCW) 
Alt, BATRA Y P, BROOD 最 大 : 
Pus duum WL D 
-e zu e a E 
» PCW) 
因为 对 于 给 定单 词 序 列 ， 我 们 要 找 出 一 个 句子 的 最 可 能 的 标记 订 
列 ， 所 以 ， 单 词 序 列 的 概率 P(W) 对 于 每 一 个 标记 序列 都 是 相同 的 ， 我 们 
可 以 忽略 它 ， 这 样 ， 我 们 有 : 
A 
T = argmaxP( T)P( WIT) 
Ter 


从 概率 的 “ 链 规则 ?出 发 ， 我 们 来 进行 N 元 语法 假设 : 


A Tl W) = 








PT)IP WIT) = [7 tl d, me t )PC i). | wh, s uds ) 
ait 


AH, Ow, ty ow; ty 表示 单词 串 w .wii 以 及 它们 相应 的 标记 
ty tig o PCG | wi ty Wia ti ) 是 标记 的 转移 概率 ，wl ty... Wey ty t X 
示 单 词 wi 前面 的 单词 串 、 单 词 串 中 每 一 个 单词 相应 的 标记 以 及 w; 的 标 
记 ti ，P(wi |wt wii ti ) 是 标记 ti 与 单词 wi OMAR. 


正如 我 们 在 等 式 中 为 了 给 单词 序列 的 概率 建立 模型 时 所 做 的 那样 ， 
我 们 再 做 N 元 语法 假设 。 由 于 三 元 语法 模型 使 用 最 为 广泛 ， 我 们 来 定 
义 “ 三 元 语法 模型 *。 首 先 ， 我 们 简单 地 假定 单词 的 概率 是 独立 于 它们 的 
标记 的 : 





P(w; |W, t, ...Wi1 t4 ti J=p(w; lt; ) 


其 次 ， 我 们 假定 标记 的 历史 能 够 用 最 邻近 的 两 个 标记 来 近似 地 表 


P(t; [wy ty .Wi ti-1 )=p(ti |t.» ti-1 ) 
这 样 ， 我 们 选择 标记 序列 的 最 大 值 为 : 
PLL PIT TTA AET T | We w, | t, | 
123 i=l 
也 就 是 ORs aP BG, 1 PC, aso [FPC] 


X8 RAT A LEH e HAP E rh PAS SE OR f Th IR LES 


& t; st, at) 


jus 
L 


i e Li 5l; ) 


cf W; yt. ) 


PC w. | t) 2 ——— 
1 l t, ) 


其 中 c 表 示 计 数 (count) ， 这 个 模型 也 可 以 进行 平滑 
(smoothing) ， 以 避免 零 概率 。 


PC t, | tiati ) 


(EH RI RIAN EAR HRR SC B basi Y 71 o 


魏 舍 德尔 CWeischedeD 等 1993 年 的 报告 和 德 罗 斯 (DeRose) 1988 
年 的 报告 ， 他 们 使 用 这 种 算法 ， 谁 确 率 达 到 大 约 96%。 


迄今 我 们 看 到 的 HMM 标 注 系 统 都 是 使 用 手工 标注 的 数据 来 训练 
的 。1992 年 ， 库 皮 克 (Kupiec) , K% (Cutting) 等 以 及 其 他 一 些 学 者 
说 明 ， 也 可 以 在 没有 标记 的 数据 上 ， 使 用 期 望 最 大 算法 (Expectation 
Maximization — algorithm， 简称 EM 算法 ) 进行 无 指导 的 机 器 学 习 ， 来 训 
练 HMM 标 注 系 统 。 这 些 标注 系统 仍然 从 词典 开始 ， 词 典 中 要 指出 什么 
样 的 单词 可 以 指派 什么 样 的 标记 ; 然后 ，EM 算 法 对 于 每 一 个 标记 自动 
地 学 习 单 词 似 然 度 的 功能 以 及 标记 转换 概率 。 不 过 ， 梅 里 爱 多 
(Merialdo) 1994 年 的 实验 表明 ， 尽 管 只 用 少量 的 训练 数据 ， 用 手工 标 
注 训练 出 的 标注 系统 也 比 通 过 EM 的 机 器 学 习 方 法 训练 出 的 标注 系统 的 
工作 情况 要 好 。 


因此 ，EM 训 练 出 的 “纯粹 的 HMM2 标 注 系统 大 概 只 有 在 没有 可 用 的 
训练 数据 的 情况 下 ， 才 是 最 适用 的 ， 例 如 ， 当 前 面 没 有 手工 标注 的 数据 
来 对 语言 进行 标注 时 ， 束 可 以 使 用 EM 算法 来 进行 训练 。 








3. 基于 最 大 燃 柑 型 的 目 动 标注 


在 很 多 时 候 ， 在 自然 语言 处 理 中 碰 到 的 类 型 的 分 类 问题 都 涉及 到 大 
量 的 类 别 《〈 例 如 ， 词 类 标记 中 的 类 别 ) 。 罗 和 辑 回 归 需 要 有 处 理 多 个 离散 
值 的 功能 。 在 这 样 的 场合 ， 我 们 就 把 这 种 人 逻辑 回归 叫做 多 元 逻辑 回归 
(multinomial logistic regression) 。 在 自然 语言 处 理 中 ， 多 元 逻辑 回归 
Ifi AES (MaxEnt) 。 








MaxEnt 属 于 指数 分 类 器 ”〈(exponential classifier) 或 对 数 线性 分 类 
$$ (log-linear classifier) 的 家 族 。MaxEnt 在 工作 时 ， 从 输入 中 抽取 某 
些 特征 ， 把 这 些 特征 线性 地 — Clinearly) 结合 起 来 ， 也 就 是 对 每 一 个 特 
征 乘 以 一 个 权 值 ， 然 后 把 它们 相 加 。 由 于 下 面 将 要 讨论 的 原因 ， 我 们 要 
把 相 加 所 得 的 总 和 作为 指数 来 使 用 。 


让 我 们 对 这 种 直 党 做 更 加 具体 的 说 明 。 假 定 我 们 有 茶 个 输入 X《〈 它 
可 以 是 一 个 需要 标注 的 单词 或 一 个 需要 分 类 的 文件 ) ， 我 们 从 x 中 抽取 
东 些 特征 。 例 如 ， 用 来 做 标注 的 特征 可 以 是 “该 单词 以 -ng 结尾 ?或 “前 一 
个 单词 是 he"。 对 于 每 一 个 这 样 的 特征 和 ， 我 们 有 茶 个 权 值 wi 。 


给 出 了 这 些 特征 和 权 值 ， 我 们 的 目的 是 为 这 个 单词 选择 一 个 类 别 
(例如 ， 选 择 一 个 词类 标记 ) 。MaxEnt 选 择 概率 最 大 的 标记 作为 该 单 
词 所 属 的 类 别 ， 对 于 给 定 的 观察 x， 特 定 类 别 c 的 概率 为 : 


2 vifi 


plel x) = Z6 


Heelz) a exp 2, wif.) 


这 里 ，Z 是 归 一 化 因子 ， 其 作用 在 于 使 概率 的 总 和 正确 地 归结 大 
1; 按照 惯例 ，exp(x) = e* 。 以 后 我 们 会 看 到 ， 上 面 的 公式 是 一 个 简化 
了 的 公式 ， 在 实际 的 MaxEnt 模 型 中 ， 特 征 f 和 和 权 值 w 两 者 都 依赖 于 类 别 
c。 也 惑 是 说 ， 对 于 不 同 的 类 别 ， 我 们 有 不 同 的 特征 和 权 值 。 


MaxEnt 分 类 需 计 算 类 别 概率 的 公式 是 
N 
exp( >, _wili) 
1 + exp( » wf) 


ply = truel x) = 


和 


1 
py sgulselw)m——————————— 
1 + exp( > wf, ) 


这 两 个 公式 的 泛 化 。 





我 们 假定 y 的 目标 值 是 一 个 随机 变量 ， 这 个 随机 变量 对 于 类 别 cy , c 
,cc ， 取 C 个 不 同 的 值 。 





在 一 个 MaxEnt 模 型 中 ，y 是 特定 类 别 c 的 概率 ， 使 用 如 下 公式 来 估 
it: 


y=pelx) = Zep u f (1) 





其 中 ，wi 是 权 值 ，fi 古 特征 。 


现在 我 们 给 这 个 原理 性 的 公式 加 上 某 些 细节 。 首 先 ， 我 们 来 充实 归 
一 化 因 了 于 Z 的 内 容 ， 把 特征 的 数目 定 为 N， 并 根据 类 别 c 给 加 权 赋 值 。 最 
后 得 到 的 等 式 为 : 


exp >» we 7. | 


plel«) = 一 (2) 


> exp ( Ye. f. ) 


c'ec 


注意 ， 归 一 化 因子 Z 只 是 用 于 把 指数 引入 真 的 概率 中 : 


Z= Zels) = Pop( Pu,f) (3) 


ceC 


其 中 的 c 是 C 中 的 茶 一 个 类 别 ， 全 部 c 的 “并 ” 填 满 C。 














为 了 看 到 最 终 的 MaxEnt 公 式 ， 我 们 还 要 再 作 一 些 改变 。 前 面 我 们 
一 直 假 定 特征 f 是 取 实 值 的 。 但 是 ， 在 自然 语言 处 理 中 ， 更 多 的 是 使 用 
二 值 特征 。 如 果 一 个 特征 只 取 值 0 和 1， 这 个 特征 也 可 以 叫做 指示 函数 
(indicator function) 。 一 般 地 说 ， 我 们 使 用 的 特征 都 是 指示 函数 ， 它 要 
日 示 出 观察 的 某 些 特性 与 我 们 考虑 指派 给 它 的 类 别 。 因 此 ， 在 MaxEnt 
中 ， 我 们 不 使 用 f 这 样 的 记 法 ， 而 使 用 f; (c, x) 这 样 的 记 法 ， 它 的 意思 是 
指 对 于 给 定 的 观察 x， 某 一 特定 的 类 别 c 的 特征 i。 








在 MaxEnt 中 ， 给 定 x 和 类 别 c， 计 算 y 的 概率 的 最 终 公 式 为 : 


exp | Sanit ar x)) 
i el x) — (4) 


>. exp ( Yr & Vd )) 


为 了 使 我 们 对 于 二 元 特征 的 使 用 有 一 个 更 加 清楚 的 直观 理解 ， 我 们 
来 看 一 看 词类 标注 中 一 些 作 为 样本 的 特征 。 假 定 我 们 给 单词 race 标 注 了 


词类 。 





Secretariat/NNP is/VBZ expected/VBN to/TO race /VB tomorrow/ 
(要 求 秘 书 处 明天 进行 比赛 ) 
我 们 这 里 是 做 茶 个 单词 的 分 类 而 不 是 做 序列 分 类 ， 所 以 ， 我 们 只 考 
虑 这 个 孤零零 的 单词 。 我 们 将 在 以 后 讨论 怎样 对 整个 的 单词 序列 进行 标 
注 的 问题 。 
现在 我 们 想 了 解 ， 是 否 应 当 把 类 别 VB 指派 给 race (或 者 不 这 样 做 ， 
而 把 其 他 的 诸如 NN 这 样 类 别 指派 给 race) 。 
我 们 用 一 个 很 有 用 的 叫做 和 的 特征 来 说 明 当 前 的 单词 是 race 这 样 的 
事实 。 如 果 是 这 样 的 情况 ， 我 们 就 可 以 加 一 个 二 元 特征 说 明 这 为 “ 真 ”: 
1 if word, = "race" & c = NN 
£( ec, x) = | 


O otherwise 





男 外 一 个 特征 说 明 前 面 一 个 单词 是 否 有 标记 TO: 
L 人 
E wx ss | 


O otherwise 





还 有 两 个 词类 标注 特征 用 于 表示 单词 的 拼写 和 大 小 写 : 


1 if suffix ( word, ) = "ing" & e = VBG 
Low x) = 

0 otherwise 

1 if is lower case( word,) & c = VB 
Lies x) = 

0 otherwise 


由 于 每 一 个 特征 与 观察 的 性 质 和 所 标注 的 类 别 是 独立 的 ， 所 以 ， 我 
们 还 需要 一 个 分 离 特征 ， 用 它 来 表示 race 和 VB 之 间 的 关联 ， 或 者 表示 前 
面 一 个 TO 与 NN 之 间 的 关联 : 


1 if word,= "race" & c = VB 
flea) = 

O otherwise 

lL 4f £.,= TO & « = NN 
fke gj = 

0 otherwise 


每 一 个 这 样 的 特征 都 有 一 个 相应 的 权 值 。 因 此 ， 权 值 wj (c, AU 
表示 单词 race 对 于 标记 VB 提示 的 强度 ， 权 值 w，(c，x) 可 以 表示 前 面 单词 
标记 为 TO 对 于 当前 单词 是 VB 提示 的 强度 ， 等 等 。 





fl f2 f3 f4 f5 f6 
VB f 0 1 0 ] 1 0 
VB w .8 .01 1 
NN f 1 0 0 0 0 1 
NN w 8 -1.3 























图 3.33 ”标注 例句 中 的 单词 race 时 的 某 些 样本 特征 值 和 权 值 








我 们 假定 ， 对 于 VB 和 NN 这 两 个 类 别 的 特征 权 值 如 上 图 所 示 。 我 们 把 当 
前 输入 观察 〈 这 里 的 当前 词 为 race) 叫做 x。 现 在 我 们 使 用 等 式 (4) 来 
计算 P(NN|x) 和 P(VB|x): 


0.84( -1.3) 0.8 -1.3 
e e e 














及 NN | * ) = 0.8+( -1.3) 0. 8 +0. 01 +0. 1 s 08 -1.3 0.8 0.01 0.1 = 0. 20 
e +e e e te g e 
a 840.01 +0. 1 e? 8 e" 01 e? 1 
P( VBI x) = = = 0.80 
0.8+( -1.3 ) 0. 8+0. 01 +0. 1 0.8 -1.3 0.8 0.01 0.1 
e te e e te e e 


注意 ， 当 我 们 使 用 MaxEnt 进 行 分 类 (classification) IY, MaxEntH 
然 会 把 在 这 个 类 别 上 的 概率 分 布 给 我 们 。 如 果 我 们 想 做 硬 分 类 并 且 选 择 
最 佳 的 类 别 ， 那 么 ， 我 们 可 以 选择 具有 最 大 概率 的 类 别 ， 也 就 是 ， 
c = argmaxP( cl x) 

因此 ，MaxEnt 中 的 分 类 是 (布尔 ) 逻辑 回归 中 的 分 类 的 泛 化 。 在 
布尔 逻辑 回归 中 ， 分 类 时 需要 建立 一 个 线性 回归 ， 把 在 该 类 别 中 的 观察 
与 不 在 该 类 别 中 的 观察 分 离开 来 。 在 MaxEnt 中 的 分 类 与 此 相反 ， 分 类 
时 对 于 C 中 的 每 一 个 类 别 都 要 建立 一 个 分 离 的 线性 回归 。 在 这 样 的 工 
作 ， 对 于 每 一 个 单独 的 单元 都 要 考察 全 部 的 概率 分 布 从 而 帮助 找 出 最 好 
的 序列 ， 这 是 非常 有 用 的 。 当 然 ， 甚 至 在 很 多 非 序列 的 应 用 中 ， 在 类 别 
上 的 概率 分 布 也 比 硬性 的 选择 更 加 有 用 。 

















迄今 我 们 描述 的 特征 只 表示 一 个 观察 的 单独 的 二 元 特性 。 但 是 ， 如 
果 建 立 更 加 复杂 的 特征 来 表示 一 个 单词 的 多 个 特性 的 组 合 ， 这 通常 也 是 
很 有 用 的 。 如 像 支 持 向 量 机 (Support Vector Machines， 简 称 SVM) 之 
类 的 机 器 学 习 模型 可 以 自动 地 模拟 基 元 特性 之 间 的 相互 作用 ， 但是， 在 
MaxEnt 中 ， 任 何 一 种 复杂 特征 都 必须 通过 手工 来 定义 。 例 如 ， 以 大 写 
字母 开头 的 单词 〈 如 像 单 词 Day) 更 可 能 被 归 入 专 有 名 词 CNNP) ， 而 
不 大 可 能 被 归 入 普通 名 词 (如 United Nations Day) 。 然 而 以 大 写字 母 开 
头 的 单词 也 可 能 出 现在 句子 的 开头 “前 面 一 个 单词 是 <s>) 。 例 如 在 句 
子 “Day after day.….” 中 的 Day 束 不 再 是 一 个 专 有 和 名词。 甚 侈 如 果 这 些 特性 
中 的 每 一 个 都 已 经 是 基 元 特性 ，MaxEnt 也 不 能 对 于 这 些 特性 的 组 合 进 





行 建 模 ， 因 此 ， 各 种 特性 的 布尔 组 合 需要 把 它们 作为 一 个 特征 用 手工 纺 
位: 
foe, x) = 


1 if word,_,= «s» & isupperfirst (word, ) & c = NNP 


0 otherwise 


要 想 成 功 地 使 用 MaxEnt， 关 键 在 于 设计 恰当 的 特征 与 特征 组 合 。 





为 什么 我 们 把 多 元 逻辑 回归 模型 叫做 MaxEnt 或 最 大 烂 模型 呢 ? 让 
我 们 在 词性 标注 的 背景 下 对 于 最 大 业 给 出 直觉 的 说 明 。 假 定 我 们 要 给 早 
词 zzfish (这 是 为 这 个 例子 而 生 造 的 单词 ) 指派 一 个 标记 。 完 全 没有 加 
任何 约束 、 假 设 最 少 的 概率 标注 模型 是 什么 呢 ? 从 直 沉 上 说 ， 这 样 的 模 
型 应 该 具有 等 概率 的 分 布 : 


NN JJ NNS VB NNP IN MD UH SYM VBG POS PRP CC CD T 
1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 1/45 ... 




















现在 假设 我 们 已 经 有 了 标注 了 词类 标记 的 某 些 训 练 数 据 ， 并 且 从 这 些 数 
据 我 们 仅仅 学 习 到 一 个 事实 : zzfish 可 能 的 标记 集 是 NN， JJ, NNS 和 
VB 〈zzfish 是 一 个 有 点 儿 像 fish 的 单词 ， 不 过 它 也 可 以 充当 形容 词 ) 。 
这 个 标注 模型 依赖 于 这 样 的 约束 ， 而 没有 做 进一步 的 假设 ， 那 么 ， 这 个 
模型 是 什么 呢 ? 由 于 标记 必须 是 正确 的 标记 ， 因 而 我 们 有 


P(NN)+P(JJ)+P(NNS)+P(VB)=1 





由 于 我 们 没有 更 多 的 信息 ， 模 型 也 没有 做 超出 我 们 所 知 的 进一步 的 
假设 ， 该 模型 将 简单 地 把 相等 的 概率 指派 给 这 些 单词 中 的 每 一 个 ， 我 们 
有 : 


NN JJ NNS VB NNP IN MD UH SYM VBG POS PRP CC CD... 
1/4 14 14 14 0 0 0 0 0 0 0 0 0 0 





在 第 一 个 例子 中 ， 我 们 想 要 的 是 在 45 个 词类 上 的 无 差别 得 出 分 布 ， 
在 第 二 个 例子 中 ， 我 们 想 要 的 是 在 4 个 词类 上 的 无 差别 的 分 布 。 已 经 证 
H, FES APA) RENN ta, SR op AA A (maxmumu 
entropy) . RAJANÉ, BEDLAESEXxA) BR BLA RIA PARAT S: 


Hx)-- > P(x ) log, PC x) 


在 等 概率 分 布 中 ， 所 有 的 随机 变量 的 值 都 具有 相同 的 概率 ， 因 而 等 
WEE OD p AY A EE e T AES ELE 2 1 SE ESSER Op KE, TE 
所 有 上 有 其 有 4 个 变量 的 分 布 中 ，{1/4, 1/4, 1/4, 1/43 2) ti AA A OY 
了 得 到 直观 的 感受 ， 你 可 以 使 用 焙 的 公式 来 计算 其 他 分 布 的 炉 ， 比 如 ， 
你 可 以 计算 {L14，1/2，1/8，1/8} 这 个 分 布 的 烂 ， 这 样 ， 你 就 可 以 确信 ， 写 
ADT ES A A: 88 EG SOD i TIE I o 









































我 们 的 直观 感受 是 ， 在 给 MaxEnt 建 模 的 时 候 ， 这 个 概率 模型 将 根 
据 我 们 给 它 的 一 些 约束 来 建立 ， 但 是 ， 除 了 这 些 约束 之 外 ， 它 要 尊 
守 “Occam 刹 思 ” 的 原则 : “如 无 必要 ， 斩 增 实体 ”( “Plurality should never 
be proposed unless needed') ， 把 可 能 的 假设 减低 到 最 少 。 


让 我 们 把 更 多 的 约束 加 到 词类 标注 的 例子 中 去 。 假 设 我 们 查找 已 经 
标注 的 训练 数据 并 且 注 意 到 zzfish 在 10 次 中 有 8 次 被 标注 为 普通 名 词类 ， 
不 是 标注 为 NN， 就 是 标注 为 NNS。 这 样 我 我 们 就 可 以 给 zzfish 加 
上 “word is zzfish and t; = NN or t; = NNS” 这 样 的 特征 。 这 时 ， 我 们 就 会 
想到 修正 原来 的 分 布 ， 把 8/10 的 概率 量 分 派 给 名 词 ， 现 在 我 们 有 了 两 个 
约束 : 


P(NN) + P(JJ) + P(NNS) + P(VB) = 1 
P(word is zzfish and t; = NN or t; = NNS) = 8/10 


我 们 不 再 进一步 地 假设 ,仍然 保 持 本 与 VB 是 等 概率 的 ， 保 持 NN 与 
NNS 是 等 概率 的 ， 这 时 ， 我 们 有 : 


NN JJ NNS VB NNP x 


4/10 1/10 4/10 1/10 O0 
现在 我 们 假定 ， 关 于 单词 zzfish， 我 们 没有 更 多 的 信息 了 。 不 过 ， 
我 们 在 训练 数据 中 还 注意 到 ， 对 于 英语 的 所 有 单词 (不 仅仅 是 
zzfish) ， 在 20 个 单词 中 ， 动 词 (VB) 出 现 1 次 。 因 此 ， 现 在 我 们 还 有 
必要 针对 特征 t; = VB， 增 加 这 样 的 约束 ， 于 是 我 们 得 到 3 个 约束 : 





P(NN) + P(JJ) + P(NNS) + P(VB)= 1 
P(word is zzfish and t; = NN or t; = NNS) = 8/10 
P(VB) = 1/20 





Hi TOXFÉROESSR, BCE RUAN A T Fs 
NN JJ NNS VB 


4/10 3/20 4/10 1720 

总 而 言 之 ， 从 直觉 上 说 来 ， 所 谓 “ 最 大 灶 ” 就 是 通过 不 断 地 增加 特征 
的 方法 来 建立 分 布 。 每 一 个 特征 是 一 个 指示 函数 ， 这 个 指示 函数 从 训练 
的 观察 集合 中 抓 取 一 个 子 集 。 在 增加 特征 时 ， 要 特别 谨慎 ， 要 精心 选择 
特征 ， 一 定 要 注意 保持 灶 值 最 大 ， 如 果 没 有 必要 ， 切 勿 随便 增加 特征 ， 
遵守 “Occam 剃 刀 " 的 原则 : “如 无 必要 ， 勿 增 实体 “。 在 多 元 逻辑 回归 
中 ， 一 定 要 慎之 又 慎 ， 切 勿 随便 增加 特征 ， 对 于 每 一 个 特征 ， 我 们 在 总 
的 分 布 中 增加 一 个 约束 ， 从 而 使 得 我 们 对 于 这 个 子 集 的 分 布 与 我 们 在 训 
练 数据 中 看 到 的 经 验 性 的 分 布 是 匹配 的 尽量 保持 炳 值 最 大 。 所 以 ， 我 们 














要 选择 与 这 些 约束 一 致 的 最 大 箭 分 布 。 
我 们 再 以 英汉 翻译 为 例 来 说 明 最 大 烂 的 原理 。 


在 英汉 机 融 翻 译 中 ， 对 于 英语 中 的 “take"”， 对 应 汉语 的 翻译 有 如 下 7 
种 : 


(t1) “HME”: The mother takes her child by the hand. FRIE 孩子 
的 手 。 


(t2) “E”: Take the book home. E BE 回 家 。 
(t3) *3é^^": to take a bus to work. 乘坐 公共 汽车 上 班 。 
(t4) “st”: Take your temperature. 量 一 量 你 的 体温 。 


(t5) “48”: The suitcase wouldn't take another thing. 这 个 衣 箱 不 能 
别 的 东西 了 。 


(t6)“ 花 费 ”: It takes a lot of money to buy a house. 买 一 所 房子 要 龙 
KER o 


(t7) “理解 、 领 会 >: How do you take this passage? 你 怎么 理解 这 上 段 
ih? 





假设 对 于 所 有 的 英文 ?take”， 只 有 这 7 种 翻译 。 则 存在 着 如 下 限制 : 
P(t, |x)+P(ty x)*p(ts [x)*...*p(t; x)-1 (5) 


KF, p(t; | 区 (Ls<i<s7) 表 示 在 一 个 含有 单词 take 的 英文 句子 中 ，take 翻 








译 成 6 ”的 概率 。 在 这 个 限制 下 ， 对 每 种 翻译 赋予 均等 一 致 的 概率 为 : 
p(t, =p( |x)=...=p(t7 |x)=1/7。 但 是 对 于 “take”， 我 们 通过 统计 发 现 它 
的 前 两 种 翻译 (t1) 和 (t2) 是 常见 的 ， 假 设 满足 如 下 条 件 


P(ty |x)+p(t> |x) = 2/5 (6) 





在 (1) 和 (2) 共 同 限制 下 ， 分 配给 每 个 翻译 的 概率 分 布 形式 有 很 多 。 但 是 
最 一 致 的 分 布 为 : 


P(t, [x)7p(to |x)71/5 
p(ts |x)-p(t4 |x)7p(ts |x)-p(tg [x)7p(t; [x)-3/5 


HOWIE ig Bi at fti FUR AY ARE - 


但 是 上 面 的 限制 ， 都 没有 考虑 上 下 文 的 环境 ， 翻 译 效果 不 好 。 因 此 
我 们 引入 特征 。 例 如 ， 瑞 文 “take” 翻 译 为 “乘坐 ”的 概率 很 小 ， 但 是 
当 “take” 后 面 跟 一 个 交通 工具 的 名 词 “bus” 时 ， 它 翻译 成 “乘坐 ”的 概率 束 
变 得 非常 大 。 为 了 表示 take 跟 有 “bus” 时 翻译 成 “乘坐 ”的 事件 ， 我 们 引入 
二 值 函 数 : 








if y =" R" and next word = bus 


Ax,y)={ (7 ) 


x 表示 上 下 文 环 境 ， 这 里 看 以 看 作 是 含有 单词 take 的 一 个 英文 短语 ， 
而 y 代 表 中 文 输出 ， 它 是 与 英文 “take” 对 应 的 中 文 翻译 。Anext (x) ALE 
是 上 下 文 环 境 x 的 一 个 函数 ， 表 示 x 中 跟 在 单词 take 后 的 一 个 单词 
为 “bus”。 这 样 一 个 函数 称 作 一 个 特征 函数 ， 或 者 简称 一 个 特征 。 引 入 
诸如 公式 (7) 中 的 特征 ， 它 们 对 概率 分 布 模 型 加 以 限制 ， 求 在 限制 条 
件 下 具有 最 一 致 分 布 的 模型 ， 从 而 保证 该 模型 的 糯 值 最 大 。 

















AWEL, ML EWR, HARAR ih ee HE EAS r e A AE 
的 方法 来 建立 分 布 。 每 一 个 特征 是 一 个 指示 函数 ， 这 个 指示 函数 从 训练 
的 观察 集合 中 抓 取 一 个 子 集 。 对 于 每 一 个 特征 ， 我 们 在 总 的 分 布 中 增加 
一 个 约束 ， 从 而 表示 我 们 对 于 这 个 子 集 的 分 布 与 我 们 在 训练 数据 中 看 到 
的 经 验 性 的 分 布 是 匹配 的 。 所 以 ， 我 们 要 选择 与 这 些 约束 一 致 的 最 大 精 
分 布 。Berger 等 〈1996) 提出 的 发 现 这 个 最 大 精 分 布 的 最 优化 问题 如 
F: 














为 了 从 所 容许 的 概率 分 布 的 集合 c 中 筛选 出 一 个 模型 ， 就 要 选择 具 
Hi ASH Cp) 的 模型 p” EC: 


p -argmaxH(p) 


现在 我 们 可 以 做 出 一 个 重要 的 结论 。Berger 等 (1996) 证 明 ， 这 个 
最 优化 问题 的 解 恰恰 就 是 多 元 逻辑 回归 的 概率 分 布 ， 它 的 权 值 W 把 训 
练 数据 的 似 然 度 最 大 化 ! ”因此 ， 当 根据 最 大 似 然 度 的 标准 来 训练 时 ， 
多 元 逻辑 回归 的 指数 模型 也 能 够 找到 最 大 箭 分 布 ， 这 个 最 大 业 分 布 服从 
于 来 自 特 征 函 数 的 约束 。 





4. FEF ig Aqu ATIS BS 
ic 
我 们 在 讨论 MaxEnt 的 时 候 曾经 指出 ， 基 本 的 MaxEnt 模 型 本 身 还 不 


征 一 个 序列 分 类 器 。 它 的 作用 是 把 一 个 单独 的 观察 分 类 到 离散 类 别 集合 
的 一 个 成 分 中 去 ， 例 如 ， 在 文本 分 类 中 ， 在 匿名 文本 的 各 个 可 能 的 作者 








之 间 进 行 选择 ， 或 者 把 一 个 电子 邮件 归 入 到 垃圾 邮件 中 去 ;或 者 判定 一 
个 圆 点 号 是 不 是 处 于 句子 的 末尾 等 等 。 











现在 ， 我 们 转 入 讨论 最 大 科 马尔 可 夫 模 型 ^ (maximum entropy 
Markov ”model， 简 称 MEMM) ， 它 是 基本 MaxEnt 分 类 器 的 扩充 ， 所 
以 ， 它 能 够 用 来 把 一 个 类 别 指派 给 一 个 序列 中 的 每 一 个 成 分 ， 就 像 我 们 
在 HMM 中 所 做 的 那样 。 





为 什么 我 们 要 把 序列 分 类 器 建立 在 MaxEnt 的 基础 之 上 呢 ? 这 种 分 
类 器 是 不 是 比 HMM 好 一 些 呢 ? 


我 们 来 考虑 词性 标注 中 的 HMM 方 法 。HMM 标 注 模型 是 建立 在 形式 
为 转移 概率 P(tag | tag) 和 发 射 概 率 P(word | tag) 的 基础 之 上 的 。 这 意味 
着 ， 如 果 我 们 想 把 某 种 知识 源 包含 到 标注 的 过 程 之 中 ， 我 们 必须 找到 一 
种 方法 对 在 这 种 知识 进行 编码 ， 把 它 归 入 到 这 两 种 概率 中 某 一 种 概率 中 
去 。 但 是 ， 很 多 知识 源 很 难 适应 于 这 样 的 模型 。 例 如 ， 我 们 知道 ， 为 了 
标注 未 知 词 ， 用 得 着 的 特征 有 大 写 ， 是 否 出 现 连 字 符 ， 是 否 是 词尾 等 
等 ， 可 是 ， 没 有 一 种 简易 的 方法 能 够 把 如 P(capitalization | tag), P(hyphen 
| tag), P(suffix | tag) 之 类 的 概率 纳入 到 具有 HMM 风 格 的 模型 法 中 去 。 

















我 们 在 前 面 一 节 中 ， 当 讨论 MaxEnt 在 词类 标注 中 的 应 用 的 时 候 ， 
我 们 已 经 有 了 部 分 的 直观 感受 。 词 类 标注 肯定 是 一 个 序列 标注 的 问题 ， 
但 是 ， 我 们 仅仅 讨论 了 如 何 把 词类 标记 指派 到 一 个 独立 的 单词 上 去 。 





我 们 怎样 才能 处 理 这 种 单独 的 局 部 分 类 器 ， 并 且 把 它 转 变 为 通用 
HJ FEES Ye? 在 给 每 一 个 单词 进行 分 类 的 时 候 ， 可 以 依靠 当前 词 
的 特征 来 分 类 ， 也 可 以 依靠 周围 单词 的 特征 来 分 类 ， 还 可 以 依靠 来 目前 
面 一 个 单词 的 分 类 器 的 输出 来 分 类 。 例 如 ， 最 简单 的 方法 是 从 左 向 右 运 





行 我 们 的 局 部 分 类 器 ， 首 先 对 句子 中 的 第 一 个 单词 进行 硬 分 类 ， 然 后 对 
第 二 个 单词 进行 分 类 ， 如 此 等 等 。 在 给 每 一 个 单词 分 类 的 时 候 ， 我 们 可 
以 依靠 来 目前 面 一 个 单词 的 分 类 器 的 输出 ， 并 把 这 种 输出 作为 一 个 特 
征 。 例 如 ， 我 们 看 到 ， 在 给 单词 race 标 注 时 ， 前 面 一 个 单词 的 标记 是 一 
个 很 有 用 的 特征 ， 前 面 一 个 单词 的 标记 IO 是 race 标 注 为 VB 的 最 好 指 

示 ， 前 面 一 个 单词 的 标记 为 DT 是 race 标 注 为 NN 的 最 好 指示 。 这 种 自 左 
向 右 滑动 窗口 的 方法 取得 了 令 人 恢 诈 的 好 结果 ， 有 具有 广阔 的 应 用 范围 。 














当然 我 们 可 以 使 用 这 样 的 方法 进行 词类 标注 ， 不 过 ， 这 种 简单 的 目 
左 问 右 的 分 类 器 有 一 个 缺点 : 当 分 类 器 移动 到 下 一 个 单词 之 前 ， 它 必须 
对 于 分 析 过 的 每 一 个 单词 做 出 一 个 硬性 的 判定 。 这 意味 着 ， 这 样 的 分 类 
器 不 能 利用 来 自 后 面 单 词 的 信息 告知 计算 机 在 前 面 已 经 做 出 的 决定 。 但 
是 ， 我 们 知道 ， 在 隐 己 尔 可 夫 模 型 中 的 情况 与 此 相反 ， 我 们 不 必 在 每 一 
个 单词 的 地 方 部 做 出 硬性 的 决定 ， 我 们 可 以 使 用 Viterbi 解 码 算 法 来 友 现 
那些 在 整个 句子 中 最 优 的 词类 标注 序列 。 








Ig kd un IAS (MEMM) 把 Viterbi 算 法 与 MaxEnt 紧 密 地 
结合 起 来 ， 使 得 我 们 可 以 达到 同样 的 效果 ， 发 挥 隐 马尔 可 夫 模 型 的 长 
处 。 


让 我 们 再 以 词性 标注 为 了 例子 ， 来 看 一 看 MEMM 是 怎样 工作 的 。 








如 果 我 们 把 MEMM 与 HMM 相 比较 ， 就 很 容易 理解 MEMM。 我 们 记 
得 ， 使 用 HMM 来 给 概率 最 大 的 词类 标记 序列 建 模 的 时 候 ， 我 们 依靠 贝 
叶 斯 规则 来 计算 PCWIT)P(T)， 而 不 是 直接 计算 P(TIW): 


T = argmaxP(T| W) 
= argmaxP( WI T )PCT ) 
= argmax II^ word, | tag; ) [7 tag; | dag.) 


我 们 曾经 把 HMM 描 述 为 一 个 生成 模型 ， 它 能 把 似 然 度 P(WIT) 最 优 
化 ， 并 且 ， 我 们 能 够 把 这 个 似 然 度 P(WIT) 与 先 验 概率 P(T) 结 合 起 来 估计 
后 验 概率 P(TIW)。 


与 此 相 比 ， 在 MEMM 中 ， 我 们 是 直接 计算 后 验 概率 P(TIW) 的 。 
为 我 们 直接 训练 模型 在 各 种 可 能 的 标记 序列 中 进行 分 辨 所 以 ， 我 们 把 
MEMM 叫 做 分 辨 模型 (discriminative model) ， 而 不 叫做 生成 模型 。 在 
MEMM 中 ， 我 们 把 概率 拆 分 了 : 


T 


argmax/X T | W) 


argmax PX tag. | word, ,tag. , ) 
= 8; i 8 i ] 


因此 ， 在 MEMM 中 ， 我 们 不 使 用 似 然 度 和 先 验 概率 分 离 的 模型 ， 
而 是 训练 一 个 单独 的 概率 模型 来 估计 P(tag; | word; , tag; 4 )。 我 们 将 使 用 
MaxEnt 来 处 理 后 面 这 一 块 ， 对 于 给 定 的 前 面 的 标记 (tagij D 、 被 观察 
的 单词 (word; ) 以 及 我 们 想 加 进去 的 任何 其 他 的 特征 ， 来 估计 每 一 个 
局 部 标记 (tag; ) 的 概率 。 





在 下 图 中 ， 我 们 可 以 对 于 词性 标注 工作 中 的 HMM 和 MEMM 进 行 对 
比 ， 获 得 直观 的 感受 ， 这 个 图 重复 了 HMM 模 型 ， 并 且 加 上 了 一 个 新 的 
模型 MEMM。 注 意 ，HMM 模 型 包括 对 于 每 一 个 转移 和 每 一 个 观察 都 给 
出 了 明确 的 概率 ， 而 在 MEMM 中 ， 对 于 每 一 个 隐藏 的 状态 ， 只 给 出 一 








个 概率 估计 ， 它 就 是 在 给 定 的 前 面 标记 和 观 峙 的 情况 下 ， 下 面 一 个 标记 


的 概率 。 


图 3.35 强 调 了 在 图 3.34 中 没有 表示 出 来 的 MEMM 优 越 于 HMM 的 另 
一 个 长 处 ， 与 HMM 不 同 ，MEMM 可 以 使 用 输入 观察 中 的 任何 有 用 的 特 
征 作 为 条 件 。 而 在 HMM 中 ， 这 是 不 可 能 的 ， 因 为 HMM 是 基于 似 然 度 





的 ; 所 以 它 必 须 计算 观 峙 中 的 每 一 个 特征 的 似 然 度 。 








Secretariat is expected to race tomorrow 
Secretariat is expected to race tomorrow 

















图 3.34 “表示 在 Secretariat 开 头 的 句子 中 ， 计 算 正 确 的 标记 序列 的 概率 的 HMM (上 图 ) 和 
MEMM (下 图 ) 。 每 一 个 弧 都 与 一 个 概率 相关 联 ，HMM 对 于 观察 似 然 度 和 先 验 概 率 分 别 计算 






































两 个 不 同 的 概率 ， 而 MEMM 以 前 面 的 状态 和 当前 的 观察 为 条 件 ， 在 每 一 个 状态 只 计算 
的 概率 函数 。 
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d expect@d) to race tomorrow 








图 3.35 在 上 图 描述 的 基础 上 进一步 提升 的 用 于 词性 标注 的 MEMM， 图 中 说 明 ，MEMM 可 以 使 




















个 单独 

















用 输入 中 的 更 多 的 特征 作为 条 件 ， 例 如 ， 大 写 ， 形 态 特 征 《〈《 以 -s 结 尾 ， 或 者 以 -ed 结尾 ) ， 前 面 





























的 单词 ， 前 面 的 标记 ， 等 等 。 图 中 ， 我 们 显示 了 在 对 输入 句子 中 的 前 三 个 单词 进行 判断 时 的 一 

















些 潜 在 的 附加 特征 ， 使 用 了 不 同 风格 的 线条 来 表示 这 些 附加 特征 的 差别 。 





更 加 形式 地 说 ， 在 HMM 中 ， 我 们 要 计算 给 定 观 察 的 状态 序列 的 概 
率 如 下 : 


PC Q | O ) - [r 0; | q; ) X [r q; | gi-i ) 
iz] iz] 
在 MEMM 中 ， 我 们 要 计算 给 定 观察 的 状态 序列 的 概率 如 下 : 


EI QI 0) = TGEA oum ) 


不 过 ， 在 实际 应 用 中 ，MEMM 可 以 使 用 比 HMM 更 多 的 特征 作为 条 
件 ， 所 以 ， 一般 地 说 ， 我 们 在 公式 xe10)= Aal) 的 右手 边 可 以 使 
用 更 多 的 因子 作为 条 件 。 


为 了 估计 从 状态 q 到 产生 观察 O 的 状态 q 的 一 个 单独 的 转移 概率 ， 我 
们 建立 了 如 下 的 MaxEnt 模 型 : 
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PLalg @) = Horr? | dw fi o.) 


5. 基于 转换 的 目 动 标注 


基于 转换 的 标注 有 时 又 叫做 布 里 尔 标注 (Brill tagging) ， 它 是 布 里 
尔 1995 年 提出 的 在 机 器 学 习 中 的 基于 转换 的 学 习 CTransformation-Based 
Learning， 简 称 TBL ) 方法 的 一 个 实例 ， 并 且 它 又 从 基于 规则 的 标注 算 
法 和 基于 统计 的 标注 算法 中 得 到 启示 。 











与 基于 规则 的 标注 算法 相似 ，TBL 是 基于 规则 的 ， 它 要 指出 ， 什 么 
样 的 标记 可 以 指派 给 什么 样 的 单词 。 但 是 ，TBL 又 与 基于 统计 的 标注 算 
法 相似 ，TBL 古 一 种 机 器 学 习 技术 ， 其 中 规则 是 自动 地 从 数据 推导 出 来 
的 。 与 茶 些 但 不 是 全 部 的 HMM 标 注 算 法 相似 ，TBL 是 一 种 有 指导 的 学 
习 技 术 ， 它 在 标注 之 前 ， 需 要 有 一 个 训练 语料库 。 





为 了 理解 TBL 的 整个 构架 ， 我 们 可 以 把 TBL 方 法 和 茶 种 绘画 的 方法 
做 一 个 类 比 。 








我 们 想象 一 位 女 艺 术 家 要 以 赣 天 的 背景 画 一 间 白 色 的 房子 ， 房 子 上 
有 绿色 的 装饰 。 假 定 这 幅 画 的 大 部 分 都 是 天 空 ， 那 么 ， 这 幅 画 的 大 部 分 
都 应 该 是 蔓 色 的 。 开 始 时 ， 这 位 女 艺 术 家 使 用 很 粗 的 画笔 把 整 块 油画 布 
涂 成 蓝 色 。 然 后 ， 她 用 较 小 的 白色 画笔 来 调整 画面 上 的 东西 ， 并 且 把 整 
个 房子 涂 上 和 白色。 这 时 ， 她 只 是 给 整个 房子 着 色 ， 用 不 着 担心 标 色 的 屋 
顶 、 蓝 色 的 窗子 或 者 绿色 的 山 增 。 然 后 ， 她 才 取 一 只 更 小 的 标 色 画笔 来 
给 屋顶 着 色 。 接 着 ， 她 把 蓝 色 的 颜料 蕊 到 一 只 小 画笔 上 ， 在 谷 仓 上 画 出 
蓝 色 的 窗子 。 最 后 ， 她 拿 一 只 很 细 的 绿色 画笔 给 山墙 做 装饰 。 


这 位 画家 开始 时 用 狙 男 笔 履 凋 了 大 英 的 油画 布 ， 而 不 是 首先 给 各 个 
区 域 分 别 着 色 ， 这 些 区 域 是 要 以 后 重新 着 色 的 。 下 一 层 的 颜色 占 油 画布 
的 区 域 较 小 ， 所 造成 的 “错误 ”也 比较 小 。 每 一 个 新 的 层 使 用 的 画笔 越 来 
越 细 ， 它 们 修改 图 画 的 区 域 也 越 来 越 小 ， 因 而 产生 的 错误 也 越 来 越 小 。 





TBL 所 用 的 方法 与 这 位 女 画 家 的 方法 在 某 种 意义 上 是 相同 的 。TBL 
算法 有 一 套 标 注 规 则 。 语 料 库 首先 用 比较 宽 的 规则 来 标注 ， 这 些 规则 也 
就 是 在 大 多 数 场合 使 用 的 规则 。 然 后 ， 再 选择 稍微 特殊 的 规则 来 修改 原 
来 的 东 些 标记 。 接 着 ， 再 使 用 更 加 鹤 的 规则 来 修改 数量 更 少 的 标记 《其 
中 茶 些 标记 可 能 是 前 面 已 经 修改 过 的 标记 ) 。 











让 我 们 来 看 一 看 布 里 尔 在 1995 年 的 标注 算法 使 用 的 一 些 规则 。 在 使 
用 这 些 规 则 之 前 ， 标 注 系统 已 经 给 每 一 个 单词 标 上 了 最 可 能 的 标记 。 我 
们 可 以 从 标注 语料库 中 得 到 这 些 最 可 能 的 标记 。 人 例如， 布衣 语料库 中 ， 
race 最 可 能 标注 为 名 词 : 





P(NNrace) = 0.98 
P(VBlļ|race) = 0.02 


这 意味 着 我 们 在 上 面 看 到 的 关于 race 的 两 个 例子 中 ， 两 个 race 的 编 
码 都 是 NN。 在 第 一 种 情况 下 ， 这 是 错误 的 ， 因 为 NN 是 不 正确 的 标记 : 


is/VBZ expected/VBN to/TO race/NN tomorrow/NN 
在 第 二 种 情况 下 ， 这 个 race 被 正确 地 标注 为 NN: 
the/DT race/NN for/IN outer/JJ space/NN 


在 选择 了 最 可 能 的 标记 之 后 ， 布 里 尔 标注 算法 应 用 它 的 转换 规则 。 
当 应 用 转换 规则 时 ， 布 里 尔 的 标注 系统 学 习 到 一 个 正好 应 用 于 改正 race 
的 错误 标记 的 规则 ， 这 条 规则 是 : 








Change NN to VB when previous tag is TO 
(当前 面 标记 为 TO 时 ， 把 NN 改变 为 VB) 





这 条 规则 正好 满足 条 件 ， 它 将 把 race/NN 改 变 成 raAce/VB， 因 为 race 
前 面 是 to/TO: 


expected/V BN to/TO race/NN 5 expected/VBN to/TO race/VB 


布 里 尔 的 TBL 算 法 包括 三 个 阶段 。 


在 第 一 个 阶段 ， 它 首先 把 每 一 个 单词 标 上 最 可 能 的 标记 。 


在 第 二 个 阶段 ， 它 检查 每 一 个 可 能 的 转换 ， 并 且 选 择 那 个 能 够 最 大 
程度 地 改善 标注 的 转换 。 





在 第 三 个 阶段 ， 根 据 这 个 规则 ， 对 数据 进行 重新 标注 。 


后 面 的 两 个 阶段 重复 进行 ， 直 到 达到 某 个 标准 ， 使 得 不 能 再 继续 元 
分 地 改善 前 一 轮 的 结果 为 止 。 注 意 ， 在 第 二 个 阶段 ， 要 求 TBL 知 道 每 一 
个 单词 的 正确 标记 是 什么 : 这 意味 着 TBL 是 一 种 有 指导 的 学 习 算法 。 








TBL 过 程 的 输出 是 一 个 转换 的 有 序 表 ; 这 些 转 换 组 成 一 个 “标注 过 
程 ?， 并 可 应 用 于 新 的 语料库 。 从 原则 上 说 ， 可 能 的 转换 这 个 集合 是 无 
限 的 ， 因 为 我 们 能 够 想象 这 样 的 转换 “transform NN to VB if the previous 
word was ‘IBM’ and the word ‘the’ occurs between 17 and 158 words before 
that” (“如 果 前 面 一 个 单词 是 TIBM*， 并 且 单 词 ‘the’ 出 现在 前 面 17 到 158 
个 单词 之 间 ， 则 把 NN 转换 成 VB”) 。 但 是 ，TBL 需 要 考虑 每 一 个 可 能 的 
转换 ， 以 便 找 出 在 整个 算法 的 每 一 轮 中 最 好 的 转换 。 这 样 ， 这 种 算法 就 
需要 一 种 办 法 来 限制 这 个 转换 集合 。 这 个 办 法 就 是 设计 一 个 叫做 “ 模 
板 ”(templates) 的 小 集合 ， 这 个 模板 也 就 是 转换 的 摘要 。 每 一 个 可 容 
许 的 转换 就 是 模板 的 一 个 实例 。 图 3.36 列 出 了 Brill 的 模板 集合 。 


The preceding ( following ) word is tagged z. 

The word two before ( after ) is tagged z. 

One of the two preceding ( following ) words is tagged z. 
One of the three preceding ( following ) words is tagged z. 


The preceding word is tagged z and the following word is tagged w. 


The preceding ( following ) word is tagged z and the word 





two before ( after ) is tagged w. 


图 3.36 ”Brill 的 模板。 每 条 规则 开始 都 是 “Change tag a to tag b when...”(“ 当 ... 时 ， 把 标记 a 改变 





为 标记 b”) 。 变 量 a, b,z 和 w 在 词类 范围 内 取 值 。 











在 实际 中 ， 还 有 一 些 办 法 可 以 提高 算法 的 效率 。 人 例如， 模板 和 实例 
转换 可 以 采用 数据 驱动 的 方式 来 进行 ， 如 果 一 个 转换 改善 了 某 一 个 单词 
的 标记 ， 那 么 ， 就 可 以 把 它 提出 来 作为 转换 的 实例 。 在 训练 语料库 中 使 
用 潜在 可 能 的 转换 给 单词 预先 做 索引 ， 可 以 明显 地 提高 搜索 的 效率 。 罗 
8k CRoche) 和 沙 贝 斯 (Schabes) 在 1997 年 说 明 ， 如 果 把 每 一 个 规则 转 
成 一 个 有 限 状 态 转录 机 并 且 把 所 有 的 转录 机 组 合 起 来 ， 就 可 以 提高 标注 
系统 的 速度 。 





图 3.37 说 明了 使 用 布 里 尔 的 原来 的 标注 系统 学 习 到 的 一 些 规则 。 


Change tags 


Example 


To Condition 








NN VB Previous tag is TO to/TO race/NN—VB 
VBP | VB One of the previous 3 tags is MD might/MD vanish/VBP—VB 
NN VB One of the previous 2 tags is MD | might/MD not reply/NN—VB 
VB | NN One of the previous 2 tags is DT 
VBD | VBN | One of the previous 3 tags is VBZ 
图 3.37 布 里 尔 标注 系统 中 头 20 条 非 词汇 化 的 转换 中 的 部 分 内 容 


Un A U N 一 














为 了 改进 计算 模型 ， 我 们 需要 分 析 并 了 解 错误 发 生 的 情况 。 在 像 词 
类 标注 这 样 的 分 类 模式 中 ， 错 误 分 析 一 般 是 使 用 “含混 矩阵 ”(confusion 
matrix) ， 也 叫做 “ 列 联 表 ”(contingency table) 来 进行 的 。 


含有 N 种 方式 的 分 类 任务 的 含混 矩阵 是 一 个 N 对 N 的 矩阵 表 ， 其 中 的 
单元 (x,y) 包含 正确 分 类 项 目 x 被 模型 yY 分 类 的 次 数 。 


io, RTA Zee PAY (Franz) 在 1996 年 的 标注 实验 中 的 含混 
矩阵 的 一 部 分 。 这 个 含混 矩阵 的 “ 行 ?表示 正确 的 标记 ， 生 的 “列表 示 标 


注 系统 给 出 的 假定 的 标记 ， 舍 混和 矩阵 的 每 一 个 单元 表示 相应 的 x 和 y 总 的 
标注 错误 的 百分比 。 例 如 ，4.4% 的 总 错误 表示 这 个 错误 是 由 于 把 VBN 错 
误 地 标注 为 VBD 引 起 的 。 表 中 常见 的 错误 都 用 黑体 字母 标 出 。 
































图 3.38 ”含混 矩阵 





上 面 的 含混 矩阵 以 及 有 关 的 错误 分 析 说 明 ， 当 前 标注 系统 面临 的 主 


要 问题 是 : 








1. NN-NNP-JJ 错 误 : 这 是 名 词 前 成 分 中 最 难 区 分 的 错误 。 正 确 地 区 
分 出 名 词 对 于 信息 检索 和 机 器 翻译 都 是 至 关 重 要 的 。 








2. ”RP-RB-IN 错 误 : 这 些 标记 都 以 卫星 序列 的 形式 直接 出 现在 动词 
后 面 。 





3. VBD-VBN-JJ 错 误 : 在 局 部 分 析 中 例如， 通过 过 去 分 词 发 现 被 
动 形式 ) ， 以 及 在 名 词 短 语 边界 的 正确 标注 中 ， 区 分 这 些 标记 是 非常 重 


要 的 。 


1992 年 ， 清 华 大 学 设计 了 基于 统计 方法 的 汉语 词性 自动 标注 系统 。 
该 系统 采用 一 元 语法 和 二 元 语法 相 结合 的 统计 模型 和 108 个 标记 ， 对 汉 
语 真实 文本 进行 自动 标注 的 正确 率 达 到 了 96.8%. 该 系统 在 SUN 4/75 工 作 


站 上 的 平均 标注 速度 为 每 秒 钟 175 词 次 。 该 系统 所 依据 的 原始 训练 集 包 
含 10 万 个 汉字 ， 内 容 包 括 新 闻 、 科 普 、 科 技 、 苗 事 和 经 济 法 规 等 五 类 文 
本 。 他 们 利用 统计 方法 取得 了 目 动词 性 标注 的 成 功 ， 这 充分 说 明了 ， 基 
于 统计 的 方法 是 行 之 有 效 的 ， 它 至 少 是 基于 规则 的 方法 的 一 个 重要 的 补 
充 。 











基于 规则 的 方法 ， 其 优点 是 可 以 不 必 事 先 建立 一 个 语料库 ， 研 究 者 
只 要 与 语言 学 家 合作 ， 将 大 量 现成 的 语言 学 知识 形式 化 。 因 此 ， 这 种 方 
法 可 以 方便 而 及 时 地 利用 语言 学 研究 的 最 新 成 果 。 由 于 基于 规则 的 方法 
所 描述 的 大 部 分 知识 都 是 语言 学 家 多 年 的 研究 成 条， 义 经 过 了 大 量 语言 
事实 的 检验 ， 因 此 ， 这 种 方法 具有 较 强 的 概括 性 ， 也 比较 容易 推广 到 一 
些 疝 未 涉及 的 领域 。 但 是 ， 基 于 规则 的 方法 所 描述 的 语言 知识 的 颗粒 度 
太 大 ， 难 以 处 理 复杂 的 、 不 规则 的 信息 ， 特 别 是 当 规 则 数目 增多 时 ， 很 
难 将 规则 全 面 地 和 宪 盖 茶 个 领域 的 各 种 语言 现象 。 






































基于 统计 的 方法 则 需要 事先 建立 一 个 语料库 ， 其 全 部 知识 都 是 由 计 
算 机 通过 统计 处 理 大 规模 真实 文本 而 自动 获取 的 ， 上 共有 很 好 的 一 致 性 和 
很 高 的 履 盖 率 ， 并 且 可 以 将 一 些 不 确定 的 知识 定量 化 。 但 是 ， 这 种 方法 
获取 知识 的 机 制 与 语言 学 研究 中 获取 知识 的 机 制 完全 不 同 ， 因 而 所 获取 
的 知识 很 难 与 现 有 的 语言 学 成 果 相 结合 ， 也 很 难 利 用 语言 学 研究 的 成 果 
来 改进 通过 统计 方法 所 获取 的 知识 。 














如 果 我 们 能 以 统计 方法 作为 获取 知识 的 基本 途径 ， 依 据 语 言 学 知识 
对 所 获取 的 知识 加 以 取舍 ， 并 增加 一 些 统计 方法 没有 得 到 的 、 而 义 经 过 
语言 学 家 证 明 是 行 之 有 效 的 、 正 确 的 语言 规则 ， 把 基于 规则 的 方法 和 基 
于 统计 的 方法 结合 起 来 ， 一 方面 通过 语言 学 知识 的 引入 ， 可 以 消除 由 统 
计 方 法 所 得 到 的 一 些 不 合乎 语言 学 规则 的 信息 ， 又 可 以 使 由 统计 方法 所 
建立 的 语言 模型 能 够 很 方便 地 与 现 有 的 语言 学 方法 相 结 合 ， 使 之 互相 补 











充 ， 相 得 益 彰 ; 为 一 方面 ， 由 于 许多 语言 知识 来 日 大 规模 的 真实 文本 ， 
可 以 履 兰 几乎 所 有 的 语言 现象 ， 这 样 ， 便 能 够 元 服 语言 学 家 总 结语 言 规 
则 时 的 片面 性 和 主观 性 ， 并 使 他 们 集中 精力 研究 那些 最 常见 的 、 在 统计 
意义 上 最 重要 的 语言 现象 。 基 于 规则 的 方法 与 基于 统计 的 方法 的 结合 ， 
必定 会 进一步 推动 计算 语言 学 的 发 展 ， 布 里 尔 的 TBL 算 法 在 这 方面 进行 
了 有 成 效 的 探索 ， 值 得 我 们 关注 。 
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AM AA Bay Abs 


经 过 目 动 词法 分 析 ， 输 入 句子 中 的 每 一 个 词 都 被 赋予 了 来 自 机 器 词 
典 中 的 各 种 信息 ， 对 于 汉语 书面 语 来 说 ， 每 个 词 都 从 连续 的 汉字 流 中 被 
切 分 出 来 ， 词 与 词 之 间 出 现 了 空 日， 并 且 都 赋予 了 来 自 机 器 词典 中 的 各 
种 信息 。 








但 是 ， 经 过 词法 分 析 之 后 ， 人 句子 中 词 与 词 之 间 的 词法 和 关系， 句子 中 
词组 与 词组 之 间 的 结构 和 关系， 仍然 是 不 清楚 的 。 为 此 ， 需 要 进行 句法 目 
动 处 理 (syntactical automatic processing) . 








我 们 在 第 四 、 第 五 、 第 六 、 第 七 这 四 章 中 来 讲述 句法 自动 处 理 问 
题 ， 本 章 主 要 讲 递 归 转 移 网 络 、 扩 充 转 移 网 络 ， 并 介绍 几 种 重要 的 剖析 
技术 ， 这 些 都 是 经 典 的 句法 自动 分 析 方 法 。 


H BHR WEM ERK 
网 络 


语言 符号 所 构成 的 句子 是 无 穷 无 尽 的 ， 因 此 ， 我 们 不 可 能 枚 举 出 一 
种 语言 中 的 所 有 句子 。 在 很 多 场合 ， 对 于 语言 中 某 一 长 度 的 有 限 的 名 
子 ， 往 往 可 以 采用 一 定 的 办 法 来 将 其 长 度 加 以 扩张 。 例 如 ， 下 面 的 句子 
在 英语 中 都 是 成 立 的 ， 它 们 之 间 是 逐次 扩张 而 成 的 。 











The man chants. 


(2)The man who the woman sees chants. 
(这 个 妇女 看 到 的 这 个 男人 唱歌 。) 

(SThe man who the woman who the girl sees sees chants. 
(这 个 寻 女 看 到 的 这 个 妇女 看 到 的 这 个 男人 唱歌 。) 


句子 名 是 在 句子 了 的 man (8A) 上 加 了 WHO- 从 句 who the woman 
sees 而 形成 的 ， 句 子 @ 是 在 句子 名 的 woman 〈 妇 女 ) 上 加 上 WHO- 从 名 
who the girl sees 而 形成 的 。 





我 们 可 以 在 句子 加 的 基础 上 ， 逐 次 加 上 任意 个 由 关系 词 who 引 入 的 
定语 从 句 ， 每 加 一 个 这 样 的 从 句 ， 束 构成 了 一 个 新 的 更 长 的 套 合 句子 。 
完 竟 能 够 加 多 少 个 由 关系 词 who 引 入 的 从 句 ， 只 与 说 话 人 的 记忆 力 和 耐 


心 有 关 ， 而 与 语言 本 身 的 结构 无 关 。 我 们 平时 之 所 以 很 少 说 这 样 的 套 鞋 
人 句子， 是 因为 人 类 心理 的 短 时 记忆 的 跨度 是 有 限度 的 。 根 据 心理 学 的 研 
完 ， 人 们 能 够 关注 到 的 事物 ， 短 时 间 内 同时 记 住 的 东西 ， 以 及 思维 对 大 
脑 中 同时 操纵 的 元 素 ， 都 不 会 超过 7 个 左右 《假定 为 7t2) ， 所 以 ， 当 一 
个 句子 中 的 成 分 项 目 超过 7 个 左右 时 ， 人 们 就 会 感到 记忆 负担 过 重 而 不 
愿意 说 出 这 样 的 句子 。 











XE CYngve) 在 1960 年 曾经 提出 “句子 深度 假说 ”(sentence 
depth hypothesis〉。 英 格 维 把 人 们 在 构造 一 个 句子 时 需要 存储 的 最 多 的 
符号 数 叫 做 “句子 深度 ”(the depth of sentence) ， 对 于 句子 深度 ， 他 提 
出 如 下 的 “句子 深度 假说 ”: 








(a) 所 有 的 语言 都 有 一 个 建立 在 成 分 基础 上 的 语法 ; 


(b) 在 口语 中 实际 使 用 的 句子 具有 一 个 深度 ， 在 这 个 深度 不 能 超 
过 一 定 的 符号 数 ， 





(c) 这 个 符号 数 等 于 或 者 近似 地 等 于 人 们 直接 记忆 的 跨度 ， 在 心 
理学 上 假定 为 7+2; 





Cd) 一 切 语言 的 语法 会 采取 一 定 的 方法 来 限制 句子 的 结构 ， 使 得 
大 多 数 的 句子 不 能 超过 这 个 深度 。 卫 





如 果 我 们 不 考 夸 上 述 的 心理 学 因 妹 以 及 英 格 维 的 “句子 深度 假说 ”， 
仅 从 语言 结构 本 身 来 看 ， 我 们 在 英语 中 可 以 加 上 无 限 个 由 关系 词 who 引 
入 的 从 句 而 使 句子 始终 保持 成 立 性 。 








语言 符号 的 这 种 按 同 样 的 方式 不 断 扩 张 的 性 质 ， 就 是 语言 符号 的 递 
WE. 





汉语 中 的 定语 从 名 也 可 以 无 限 地 扩张 。 
例如 : 

我 知道 小 王 不 知道 这 件 事 

@ 我 知道 小 张 知道 小 王 不 知道 这 件 事 

我 知道 道 小 张 知道 小 王 不 知道 这 件 事 


小 李 知 


句子 @@ 是 合乎 语法 的 ， 但 是 由 于 其 中 的 成 分 项 目 己 经 超过 了 7 个 ， 
所 以 在 实际 的 语言 中 很 少 会 这 样 说 。 





上 述 的 英语 和 汉语 的 例子 ， 都 是 语言 符号 的 递归 性 在 句法 结构 方面 
的 表现 。 








正 因 为 语言 符号 具有 递归 性 ， 关 别 相 同 的 语法 结构 会 多 次 在 语言 中 
出 现 ， 我 们 就 可 以 把 语法 结构 的 加 以 抽象 化 ， 用 有 限 的 语法 结构 和 规则 
来 描述 无 限 的 、 千 变 万 化 的 句子 。 





递归 转移 网 络 (Recursive Transition Network， 人 简称 RTN ) 正 是 根据 
语言 符号 的 这 种 递归 特性 提出 来 的 。 


如 果 我 们 有 下 列 的 英语 句子 : 
(John sees the house. 
(约翰 看 房子 。) 


(2)Maria sings. 


《玛丽 亚 唱歌 。) 

(3)The table hits Jack. 

(EFA Y ANGE.) 

(John sees that Maria sings. 

(约翰 看 玛丽 亚 唱歌 。) 

©The table that lacks a leg hits Jack. 

( 缺 了 一 条 腿 的 桌子 磁 了 杰克 。) 

我 们 可 以 建立 如 下 的 有 限 状态 转移 网 络 来 识别 这 些 句子 。 


图 4.1 的 有 限 状 态 转移 网 络 中 ，WH 表 示 关 系 代 词 ， 如 who， ^ which 
等 ，that 表 示 引 入 宾语 从 名 的 连接 词 that。 





图 4.1 有 限 状 态 转 移 网 络 








如 果 状 态 转 移 的 顺序 是 : dg 5qd» 一 q6 >49 一 df ， 则 可 识别 句子 


如 果 状 态 转 移 的 顺序 是 : do oq) ~ df ， 则 可 识别 句子 @)。 


如 果 状 态 转移 的 顺序 是 : do >41 ^q» dd 一 df ， 则 可 识别 句子 
©. 


如 果 状 态 转移 的 顺序 是 : do qd» de ^q; de 一 df ， 则 可 识别 句 
TG. 


可 识别 句子 @)。 


可 以 看 出 ， 识 别 这 五 个 句子 的 有 限 状 态 转移 网 络 是 非常 复杂 的 。 如 
果 我 们 要 识别 更 复杂 的 句子 ， 那 么 ， 有 限 状 态 网 络 还 要 更 为 复杂 ， 如 宁 
我 们 要 识别 一 本 书 中 的 全 部 句子 ， 那 么 ， 有 限 状 态 转移 网 络 就 不 知 有 多 
A EAT. 








然而 ， 语 言 符号 具有 递归 性 ， 同 样 的 结构 在 语言 中 可 以 重复 地 出 现 
多 次 。 在 图 3.1 的 有 限 状 态 转 移 网 络 中 ， 状 态 qu >q Aq» 组 成 的 子 网 络 
与 状态 qe = qs ”df 组 成 的 子 网 络 十 分 相似 ， 状 态 q， -qe Ads >a, 组 成 
的 子 网 络 与 状态 qg; >q, Aq; ^q» 组 成 的 子 网 络 十 分 相似 ;状态 qy — da 
-qf 与 状态 qo -~q ^q; 组 成 的 子 网 络 十 分 相似 。 利 用 语言 符号 的 递归 
性 ， 我 们 可 以 建立 递归 转移 网 络 来 大 大 地 简化 繁杂 的 有 限 状 态 转移 网 
络 。 


为 此 ， 我 们 把 状态 qo , qi , do» qd， da» qs 组 成 的 子 网 络 分 离 出 来 ， 


单独 构成 一 个 子 网 络 ， 叫 做 NP- 子 网 络 ; 我 们 又 把 状态 q; , qe , d7 > ds , Io 
组 成 的 子 网 络 分 离 出 来 ， 单 独 构成 一 个 子 网 络 ， 叫 做 VP- 子 网 络 。 这 样 
一 来 ， 图 4.1 中 的 有 限 状 态 转 移 网 络 被 分 解 成 三 个 部 分 : 


S 一 网 络 : 


NP 一 子 网 络 : N 


l | | 
VP 一 子 网 络 : 





that 





14.2 ”分 解 为 三 部 分 的 有 限 状 态 转 移 网 络 














NP- 子 网 络 中 的 gq 250425205 部 分 与 VP- 子 网 络 中 的 q， Qs > do 
>q 部 分 很 相近 ， 它 们 弧 上 的 符号 都 是 V-DET-N， 实 际 上 就 是 一 个 
VP。 据 此 ， 我 们 把 VP- 子 网 络 进一步 简化 为 如 下 的 子 网 络 : 

N 


oF) 


VP WH 


图 4.3 ”简化 后 的 NP- 子 网 络 








VP- 子 网 络 中 的 qe >q > df 部 分 与 NP- 子 网 络 中 的 go ^q, qo 部 分 
很 相近 ， 它 们 弧 上 的 符号 ， 或 者 是 DET-N， 或 者 是 单独 的 N (qu -qs , 
dg >q) ， 实 际 上 就 是 一 个 NP。VP- 子 网 络 中 的 gqe。 ”df 部 分 与 5- 
网 络 中 的 qo >q qs 部 分 很 相近 ， 它 们 弧 上 的 符号 是 N-V 和 NP-VP， 而 
N 就 是 最 简单 的 NP，V 就 是 最 简单 的 VP， N-V 和 NP-VP 实 际 上 就 是 一 个 


S。 据 此 ， 我 们 把 VP- 子 网 络 进一步 简化 为 如 下 的 子 网 络 : 


V 


e 


图 4.4 简化 后 的 VP- 子 网 络 





经 过 这 样 的 简化 之 后 ，NP- 子 网 络 中 包含 有 VP- 子 网 络 ，VP- 子 网 
络 中 包含 有 VP- 子 网 络 ， 甚 至 还 包含 有 S- 网 络 ， 充 分 地 反映 了 语言 符号 
的 递归 性 。 这 样 的 网 络 自然 也 就 获得 了 “递归 转移 网 络 ” 这 个 名 称 。 


由 于 经 过 多 次 简化 ， 递 归 转 移 网 络 中 的 状态 的 标号 的 顺序 比较 混 
乱 ， 为 了 便于 阅读 ， 我 们 对 S- 网 络 、VP- 子 网 络 和 VP- 子 网 络 中 的 状态 
的 标号 重新 按 它们 在 各 自 的 网 络 或 子 网 络 中 的 顺序 整理 如 下 : 





用 这 样 的 递归 转移 网 络 来 识别 句子 时 ， 首 先 在 S- 网 络 中 找 查 ， 如 果 
EM E38 $JNP, 3h RHE (PUSH) 到 VP- 子 网 络 中 ， 按 顺序 识别 名 词 词 
组 NP， 当 进入 到 VP- 子 网 络 的 最 后 状态 qf 时 ， 就 上 托 (POP) 回 到 S- 网 
络 中 ;如 果 在 S$- 网络 中 过 到 VP， 就 下 推 (PUSH) 到 VP- 子 网 络 中 ， 按 
顺序 识别 动词 词组 VP， 当 进入 到 VP- 子 网 络 的 最 后 状态 q ”时 ， 就 上 托 
(POP) 回 到 S- 网 络 中 ， 进 入 S- 网 络 中 的 最 后 状态 qf 时 ， 句 子 就 识别 完 
毕 。 在 下 推 到 VP- 子 网 络 中 的 时 候 ， 如 果 遇 到 其 中 的 VP- 子 网 络 ， 则 进 
一 步 下 推 到 VP- 子 网 络 中 ， 等 到 进入 VP- 子 网 络 的 最 后 状态 qf 时 ， 再 上 
托 返 回 到 VP- 子 网 络 中 ;在 下 推 到 VP- 子 网 络 中 的 时 候 ， 如 果 遇 到 其 中 
的 VP- 子 网 络 ， 则 进一步 下 推 到 VP- 子 网 络 中 ， 等 到 进入 VP- 子 网 络 最 





后 状态 qe 时 ， 再 上 托 返 回 到 VP- 子 网 络 中 。 这 样 递归 地 表 历 整个 的 递归 
转移 网 络 ， 便 能 识别 语言 中 合乎 语法 的 句子 。 








下 面 ， 我 们 利用 图 4.5 中 的 递归 转移 网 络 来 识别 前 面 的 句子 。 


S 一 网 络 : 
NP 一 子 网 络 : 
OO 
VP WH 
c» 
VP 一 子 网 络 : 


V 


59 DE 


that 
图 4.5 ”递归 转移 网 络 








首先 识别 句子 人 。 从 S- 网 络 中 的 状态 qy 开始 ， 在 状态 q。 Sq, 之 间 


是 NP， 则 下 推 到 NP- 子 网 络 ， 在 NP- 子 网 络 中 ， 从 状态 qo 到 状态 qf 之 间 
是 N， 可 识别 名 词 John， 上 托 回 到 S- 子 网 络 的 状态 qi ; 在 状态 qi 与 df 之 
间 是 VP， 下 推 到 VP- 子 网 络 ， 在 VP- 子 网 络 中 ， 从 状态 qo。 lq 之 间 是 
V， 可 识别 动词 sees， 在 状态 qt 有 两 种 选择 : 或 者 进入 q，。 识别 连接 词 
that， 或 者 进入 qf 识别 NP; 由 于 sees 的 下 一 个 词 不 是 that， 因 此 ， 再 下 推 
到 NP- 子 网 络 ， 在 NP- 子 网 络 中 ， 状 态 qu Eq, 之 间 是 DET， 故 可 识别 冠 
词 the， 在 状态 q， 与 df 之 间 是 N， 故 可 识别 名 词 house， 然 后 进入 最 后 状 
态 df ， 再 上 托 回 到 S- 网 络 ， 也 同时 进入 S- 网 络 最 后 状态 qf ， 从 而 识别 了 
句子 “John sees the house". 

















为 了 便于 阅读 ， 我 们 规定 网 络 中 的 状态 用 两 个 符号 来 表示 : 一 个 符 
号 写 在 斜 线 上 端 ， 表 示 网 络 的 名 称 ， 另 一 个 符号 写 在 斜 线 的 下 端 ， 表 示 
该 网 络 中 有 关 状 态 的 位 置 。 例 如 ，S/0 表 示 S- 网 络 中 的 状态 qu > SARR 
S- 网 络 中 的 状态 qf ，VP/1 表 示 VP- 子 网 络 中 的 状态 qi ，NP/1 表 示 NP- 子 
网 络 中 的 状态 qi ， 等 等 。 

采用 这 样 的 符号 ， 识 别 过 程 描 述 如 下 : 

一 一 从 状态 S/0 开 始 ，S/0 表 示 在 S- 网 络 中 名 字 为 0 的 状态 ; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 别 “John”(N) , 
然后 进入 NP/f; 


一 一 上 托 (POP) 到 S- 网 络 ， 在 状态 S/1 识 别 VP; 


— — F HE (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 别 “sees”(V) ， 


然后 进入 状态 VP/1; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 
Aj*the" (DET) ， 并 进入 状态 NP/1 识 别 “house”(N) ， 然 后 进入 状态 
NP/f. 


一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 
—— EE (POP) S- 网 络 的 状态 S/f。 


识别 句子 @“Maria sings” 时 ， 首 先 在 S- 网 络 中 的 状态 qy 下 推 到 VP- 
子 网 络 ， 识 别名 词 Maria， 上 托 回 到 S_ 网 络 的 状态 qt ， 在 这 个 状态 qi ， 
下 推 到 VP- 子 网 络 ， 识 别 sings， 再 上 托 回 到 S_ 网 络 的 最 后 状态 qt ， 句 子 
加 得 到 识别 。 


过 程 描述 如 下 : 
一 一 从 状态 S/0 开 始 ; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 
别 “Maria”(CN) ， 然 后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 S- 网 络 ， 在 状态 S/1 识 别 VP; 


一 一 下 推 (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 别 *sings”(V) ， 
然后 进入 状态 VP/f; 


一 一 上 托 (POP) 到 S- 网 络 的 状态 S/f。 


在 识别 句子 @)“The table hits Jack”" 时 ， 也 是 首先 在 S- 网 络 中 的 状态 


qo 下 推 到 NP- 子 网 络 ， 识 别名 词 词 组 the table (qo ~ qi >qf ) ， 上 托 回 
到 S- 网 络 的 状态 qd ， 在 这 个 状态 下 推 到 VP- 子 网 络 的 状态 qo 识别 动词 
hits， 在 VP- 子 网 络 的 状态 qt ”， 再 进一步 下 推 到 NP- 子 网 络 ， 识 别名 词 
Jack， 从 NP- 子 网 络 中 上 托 回 到 VP- 子 网 络 ， 再 进一步 上 托 到 S$- 网络 ， 
进入 该 网 络 的 最 后 状态 qt 。 于 是 ， 句 子 @ 识 别 完毕 。 

过 程 描述 如 下 : 

一 一 从 状态 S/0 开 始 ; 


— — FH (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 
别 “the”(DET) ， 然 后 进入 状态 NP/L 识 别 *table”(N) ; 接着 进入 状态 
NP/f; 


一 一 上 托 (POP) 到 S- 网 络 ， 在 状态 S/1 识 别 VP; 


一 一 下 推 (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 别 “hits”(V) ， 
然后 进入 状态 VP/1; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 别 “Jack”(N)， 
然后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 
一 一 上 托 (POP) 到 S- 网 络 的 状态 S/f。 


在 识别 句子 “John sees that Maria sings” 时 ， 首 先 从 S- 网 络 的 状态 
qo 下 推 到 NP- 子 网 络 中 识别 名 词 John， 上 托 回 到 S$- 网 络 的 状态 qi ， 再 下 


推 到 VP- 子 网 络 的 状态 q。， 在 识别 了 动词 sees 之 后 ， 进 入 状态 qg，， 在 状 


Aq 到 q, 之 间 识别 连接 词 at， 在 状态 qy ， 上 托 回 到 S- 网 络 的 初始 状态 
do ， 在 S- 网 络 的 初始 状态 q。， 又 下 推 到 NP_ 子 网 络 以 识别 名 词 Maria， 
又 从 NP_ 子 网 络 上 托 到 S_ 网 络 的 状态 q，， 再 下 推 到 VP_ 子 网 络 的 初始 状 
态 qo 以 识别 动词 sings， 并 进入 VP- 子 网 络 的 最 后 状态 qf ， 从 这 个 状态 进 
入 S- 网 络 的 最 后 状态 qf 。 于 是 ， 句 子 @ 识 别 完毕 。 

过 程 描述 如 下 ; 

一 一 从 状态 S/0 开 始 ; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 别 “John”(N) , 
然后 进入 状态 NP/f; 


一 一 上 托 (POP)〉 到 S- 网 络 ， 在 状态 S/1 识 别 VP; 


一 一 下 推 (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 别 “sees”(V)， 
然后 进入 状态 VP/1， 在 状态 VP/1 识 别 “that*”， 然 后 进入 状态 VP/2; 


一 一 下 推 (PUSH) 到 S- 网 络 ， 在 状态 S/0 识 别 NP; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 
别 “Maria”(CN) ， 然 后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 S- 网 络 ， 在 状态 S 人 1 识别 VP; 


一 一 下 推 (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 别 “sings”(V) ， 
然后 进入 状态 VP/f; 


一 一 上 托 (POP) 到 S- 网 络 的 状态 SMf， 这 时 ， 还 需要 进一步 上 托 


(POP) ; 
一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 
一 一 上 托 (POP) 到 S- 网 络 的 状态 S/f。 


在 识别 句子 @“The table that lacks a leg hits Jack” 时 ， 首 先 从 S- 网 络 
的 状态 qo。 下 推 到 NP- 子 网 络 中 ， 识 别名 词 词组 the table 之 后 ， 在 状态 q 
还 可 以 继续 识别 关系 代词 (用 WH 表示 〉that， 在 状态 qg。 与 gt ”之 间 是 
VP， 因 而 从 状态 q 下 推 到 VP- 子 网 络 的 初始 状态 qo ; 在 VP- 子 网 络 的 状 
Ado 和 qi 之 间 ， 识 别 动 词 lacks， 在 VP- 子 网 络 的 状态 q1 ， 又 下 推 到 NP- 
子 网 络 的 初始 状态 qo ， 以 识别 名 词 词 组 a leg; 从 NP- 子 网 络 的 最 后 状态 
qf 上 托 回 到 VP- 子 网 络 的 最 后 状态 qf ， 再 进一步 上 托 回 到 NP- 子 网 络 最 
后 状态 qr ， 继 续 上 托 回 到 S- 网 络 的 状态 qi; ; 在 这 个 状态 ， 下 推 到 VP- 子 
网 络 的 初始 状态 qo ， 在 VP- 子 网 络 的 状态 qo 和 gq 之 间 ， 识 别 动词 hits; 
在 状态 q 下 推 到 NP- 子 网 络 的 初始 状态 q。， 以 识别 名 词 Jack， 进 入 NP- 
子 网 络 的 最 后 状态 qt ; 识别 了 名 词 Jack 之 后 ， 从 VP- 子 网 络 的 最 后 状态 
qr ， 先 上 托 到 VP- 子 网 络 的 最 后 状态 qt ， 再 继续 上 托 到 S- 网 络 的 最 后 状 


态 qr。 于 是 ， 句 子 @ 识 别 完毕 。 
过 程 描述 如 下 : 
一 一 从 状态 S/0 开 始 ; 


— — F#E (PUSH) 到 NP- 子 网 络 ， 在 状态 NP/0 识 
Hj“the” (DET) ， 然 后 进入 状态 NP/1 识 别 *table”(N) 并 达到 状态 


NP/f; 
一 ”在 状态 NP/A 识 别 *that”(WH) ， 然 后 进入 状态 NP/2; 


一 一 下 推 (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 别 “"lacks”(V) ， 
然后 进入 状态 VP/1; 


一 一 下 推 (PUSH) 到 VP- 子 网 络 ， 在 状态 NP/0 识 别 “a”(DET) ， 
在 状态 NP/1 识 别 “leg”(N)〉， 然 后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 
一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 NP/f; 
一 一 上 托 (POP) 到 S- 网 络 的 状态 S/1; 


一 一 下 推 (PUSH) 到 VP- 子 网 络 ， 在 状态 VP/0 识 别 “hits”(V) ， 
然后 进入 状态 VP/1; 


一 一 下 推 (PUSH) 到 NP- 子 网 络 。 在 状态 NP/0 识 别 “Jack”(N)， 
然后 进入 状态 NP/f; 


一 一 上 托 (POP) 到 VP- 子 网 络 的 状态 VP/f; 
一 一 上 托 (POP) 到 S- 网 络 的 状态 S/f。 


句子 @ 的 识别 过 程 比 较 复杂 ， 可 图 示 如 下 : 


S -网络 


PUSH POP PUSH POP 
NP- 子 网 络 VP- 子 网 络 
PUSH POP PUSH POP 
VP- 子 网 络 NP- 子 网 络 
nsi | | POP 
NP- 子 网 络 


图 4.6 ”句子 @ 的 识别 过 程 








由 上 述 的 句子 的 识别 过 程 可 以 看 出 ， 名 子 的 识别 要 经 过 多 次 的 下 推 
(PUSH) 和 上 托 (POP) 操作 ， 往 往 下 推 了 还 要 再 下 推 ， 上 托 了 还 要 
再 上 托 ， 这 充分 反映 了 语言 句子 的 个 成 分 之 间 一 层 一 层 的 登 套 关 系 。 这 
种 县 套 关 系 正 是 语言 符号 递归 性 的 生动 表现 。 

















递归 转移 网 络 中 所 反映 出 来 的 英语 句子 成 分 之 间 的 层 层 相互 芝 套 的 
情况 ， 可 用 图 4.7 表 示 如 下 。 





图 4.7 ”递归 转移 网 络 所 反映 的 英语 句子 的 全 套 情 况 


递归 转移 网 络 比 有 限 状态 转移 网 络 具 有 更 强 的 能 力 。 它 的 结构 简单 
明晰 ， 却 能 处 理 上 自然 语言 中 非常 复杂 的 登 套现 象 ， 其 优点 的 显而易见 
的 。 因 此 ， 有 限 状 态 转移 网 络 一 般 只 用 来 进行 目 动词 法 分 析 ， 很 少 用 来 
进行 目 动 句法 分 析 ， 只 有 递归 转移 网 络 才 用 于 自动 句法 分 析 中 。 





在 递归 转移 网 络 中 ， 采 用 了 下 推 (PUSH) 和 上 托 (POP) 两 种 操 
作 ， 为 此 ， 需 要 设置 “后 进 先 出 栈 ”(Pushdown Stack) 来 控制 这 两 种 操 
作 。 在 下 推 和 上 托 操作 中 ， 当 从 一 个 网 络 下 推 入 另 一 个 网 络 时 ， 必 须 记 
住 原 网 络 中 在 上 托 时 应 该 返回 的 状态 ， 以 便 在 上 托 时 准确 地 返回 到 这 个 
状态 。 如 果 下 推 到 一 个 网 络 A 中 之 后 还 必须 再 下 推 到 另 一 个 网 络 B 中 ， 
在 上 托 时 天 得 先 返回 到 网 络 B， 再 返回 到 网 络 A， 这 时 ， 就 必须 记 住 应 
该 返回 到 网 络 B 的 状态 的 位 置 和 返回 到 网 络 A 的 状态 的 位 置 ， 以 便 在 上 
托 两 次 之 后 ， 能 够 准确 地 返回 到 相应 的 位 置 。 总 而 言 之 ， 如 果 先 下 推 到 
网 络 A， 再 下 推 到 网 络 B， 那 么 ， 在 上 托 时 ， 就 首先 上 托 返 回 到 网 络 B， 
再 上 托 返 回 到 网 络 A。 这 里 ， 遵 循 着 “后 进 先 出 ”(Last-In-First-Out， 人 简 
称 LIFO) 的 原则 ， 先 下 推 的 网 络 后 上 托 ， 后 下 推 的 网 络 先 上 托 。 建 立 
后 进 先 出 栈 ， 正 好 满足 这 种 后 进 先 出 的 要 求 ， 把 上 托 时 要 返回 的 网 络 中 
的 有 关 状 态 ， 存 储 在 后 进 先 出 栈 中 ， 从 而 控制 下 推 和 上 托 的 过 程 ， 使 递 
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为 了 便于 阅读 ， 我 们 规定 网 络 中 的 状态 用 两 个 符号 来 表示 : 一 个 符 
号 写 在 和 斜 线 上 端 ， 表 示 网 络 的 名 称 ， 男 一 个 符号 写 在 斜 线 的 下 端 ， 表 示 
该 网 络 中 有 关 状 态 的 位 置 。 例 如 ，S/0 表 示 S- 网 络 中 的 状态 qo。，S/f 表 示 
S- 网 络 中 的 状态 qt ，VP/1 表 示 VP- 子 网 络 中 的 状态 gi! ，NP/1 表 示 NP- 子 
网 络 中 的 状态 qi ， 等 等 。 


在 对 一 个 加 归 转 移 网 络 进行 志 历 的 任何 一 个 时 刻 ， 计 算 机 运算 的 格 


局 由 R1、R2、R3 三 部 分 组 成 ， 





一 R1: 当前 状态 的 名 字 ; 
一 R2: 输入 符 写 串 中 尚未 识别 的 部 分 : 
一 R3: 后 进 先 出 栈 的 情况 。 


与 有 限 状态 转移 网 络 的 格局 相 比 ， 除 R1 和 R2 之 外 ， 递 归 转 移 网 络 
的 格局 还 要 加 上 后 进 先 出 栈 的 情况 R3。 


例如 ， 在 用 图 4.5 中 的 递归 转移 网 络 来 识别 英语 句子 “John sees the 
house” 时 ， 当 识别 完 动词 sees 返 回 NP- 子 网 络 的 状态 q0 的 时 刻 ， 计 算 机 
的 运算 格局 如 下 : 
< NP/0, the house, VP/f: S/f > 
| 
R3: 后 进 先 出 栈 的 情况 
R2: 输入 符号 串 中 尚未 识别 的 部 分 
R1: 当前 状态 的 名 字 
后 进 先 出 栈 中 存储 着 VP- 子 网 络 中 的 状态 qt 《用 VP/{ 表 示 〉 和 S- 网 


络 中 的 状态 qf (用 S/f 表 示 〉，， 根 据 后 进 先 出 的 原则 ，VP/f 后 进 排 在 前 
面 ，S/f 先 进 排 在 后 面 。 这 时 ， 后 进 先 出 栈 中 的 情况 如 图 4.8 所 示 。 








图 4.8 ”后 进 先 出 栈 


这 意味 着 ， 当 在 NP- 子 网 络 中 识别 了 符号 串 the house 之 后 ， 先 上 托 
返回 到 状态 VPAf， 再 上 托 返 回 到 状态 S/f。 


在 吉 历 开始 时 ， 先 从 S- 网 络 中 的 初始 状态 开始 ， 后 进 先 出 栈 为 空 ， 
故此 时 的 格局 是 : 


其 中 ,，“...” 表 示 输 入 符 写 串 。 


当 裔 历 成 功 ， 输 入 符号 串 被 识别 ， 这 时 ， 我 们 必定 达到 了 S- 网 络 的 
最 后 状态 qdf， 输 入 符号 串 中 不 再 有 剩余 部 分 ， 后 进 移出 栈 变 空 ， 故 此 时 
的 格局 是 : 


<S/f,, > 


下 面 ， 我 们 举例 说 明 ， 在 一 个 句子 的 识别 过 程 中 ， 计 算 机 运算 格局 
是 如 何 地 变化 的 。 


我 们 用 图 4.5 中 的 递归 转移 网 络 来 识别 身 语 句子 “Mary sees that 
man”《〈 玛 丽 看 那个 男人 ) 。 


识别 开始 时 的 格局 为 : 
<9/0. Mary sees that man,> 
在 状态 S/0， 搜 索 到 NP， 故 下 推 到 VP- 子 网 络 中 ， 此 时 的 格局 为 : 


<NP/0, Mary sees that man, S/1: > 


后 进 先 出 栈 中 存储 了 状态 S/1， 表 示 在 从 VP- 子 网 络 上 托 返 回 到 S$- 网 
络 时 ， 返 回 的 状态 为 $/1. 


在 VP- 子 网 络 中 ， 在 状态 NP/0， 搜 索 到 N， 名 词 Mary 被 识别 ， 状 态 
转移 到 NP/A， 此 时 的 格局 为 : 


<NP/f, sees that man, S/1: > 


在 状态 NPfAf， 可 搜索 的 弧 只 有 WH， 但 sees 不 属于 WH， 而 NP/f{ 叉 是 
最 后 状态 ， 故 此 时 唯一 的 选择 就 是 从 NP- 子 网 络 上 托 到 Ss- 网 络 。 由 于 后 
进 先 出 栈 中 的 情况 表示 上 托 时 返回 到 状态 S/1， 所 以 返回 到 S$- 网 络 后 的 
格局 为 : 


<S/1, sees that man,» 
这 时 ， 后 进 先 出 栈 中 的 S/1 被 抹 去 ， 后 进 先 出 栈 变 空 。 


在 状态 S 人 上 1， 搜索 到 VP， 故 下 推 到 VP- 子 网 络 ， 状 态 转移 到 VP/0， 
后 进 先 出 栈 中 存 入 新 的 状态 S/H， 表示 上 托 时 返回 的 位 置 。 此 时 的 格局 


<VP/0, sees that man, S/f: > 


在 状态 VP/0， 搜 索 到 V， 识 别 了 动词 sees 后 进入 状态 VP/1， 此 时 的 
格局 为 : 


<VP/1, that man, S/f: > 


在 状态 VP/0 搜 索 到 V 时 ， 也 可 能 进入 状态 VP/f， 由 于 VP/ 是 最 后 状 
态 ， 故 上 托 到 S- 网 络 中 的 状态 SAf。 但 由 于 S 人 已 经 是 $- 网 络 的 最 后 状 








态 ， 而 输入 符号 串 中 还 有 that man 没 有 被 识别 ， 所 以 ， 其 格局 为 : 


<S/f, that man,» 





这 种 格局 是 不 可 能 的 。 因 而 在 识别 了 动词 sees 之 后 ， 不 进入 状态 
VP/f{， 而 进入 状态 VP/1。 


在 状态 VP/1， 义 存在 如 下 两 种 格式 可 供 选 择 : 


<VP/2, man, S/f: > 
<NP/0, that man, VP/f: S/f: > 


如 果 我 们 选择 前 一 种 格局 ， 在 VP/2， 我 们 只 能 下 推 到 $- 网 络 ， 这 
时 ， 格 局 变 为 : 


«S/0, man, VP/f: S/f: > 
<NP/O, that man, VP/f: S/f: > 


我 们 再 选择 前 一 格局 ， 在 状态 S/0， 我 们 只 得 下 推 到 NP- 子 网 络 ， 并 
在 后 进 先 出 栈 中 加 入 返回 到 S- 网 络 时 的 结 点 S/1， 这 时 ， 格 局 变 为 : 


<NP/0, man, S/1: VP/f: S/f> 
<NP/O, that man, VP/f: S/f> 


如 果 我 们 这 次 选择 后 一 格局 ， 在 NP- 子 网 络 中 搜索 DET (that 属 于 
DET) ， 并 进入 状态 NP/1， 这 时 ， 格 局 变 为 : 


<NP/O, man, S/1: VP/f: S/f: > 
<NP/1, man, VP/f: S/f: > 


继续 选择 后 一 格局 ， 在 NP- 子 网 络 中 搜索 N (man 属 于 N) ,并 进入 状 


态 NPf， 这 时 ， 格 局 变 为 : 


«NP/0, man, S/1: VP/f: S/f: > 
«NP/f,, VP/f: S/f: > 


如 果 我 们 继续 选择 后 一 格局 ， 我 们 可 上 托 到 VP- 子 网 络 的 结 点 
VP/f， 并 在 后 进 先 出 栈 中 抹 去 VPf， 这 时 ， 格 局 变 为 : 


«NP/0, man, S/1: VP/f: S/f: > 
<VP/f,, S/f: > 


再 继续 选择 后 一 格局 ， 从 VP- 子 网 络 上 托 到 S- 网 络 的 结 点 S/f， 并 在 
后 进 先 出 栈 中 抹 去 SAf， 后 进 先 出 栈 变 空 ， 这 时 ， 格 局 变 为 : 


«NP/0, man, S/1: VP/f: S/f: > 
<S/f,，> 


后 一 格局 <S/f,，> 中 ，S/ 正 是 $- 网 络 的 最 后 状态 ， 输 入 符号 串 中 没 
有 剩余 符号 ， 后 进 先 出 栈 变 空 ， 因 而 输入 符 写 串 识别 成 功 。 





递归 转移 网 络 也 可 以 用 来 进行 随机 生成 。 由 于 生成 是 随机 的 ， 在 同 
一 词汇 范畴 中 具体 地 选择 的 单词 ， 不 一 定 与 我 们 例子 中 的 单词 相同 。 


下 面 ， 我 们 给 出 句子 “Maria saw the dog”( 玛 利 亚 看 见 那 条 狗 〉 的 


二 天 如 
<S/0,，> 


一 从 S- 网 络 下 推进 入 NP- 子 网 络 ， 在 后 进 先 出 栈 中 记 住 S/1 


<NP/0,，S/1: > 
一 在 NP- 子 网 络 中 搜索 NP 
<NP/f, Maria, S/1: > 
一 生成 Maria， 并 上 托 到 S- 网 络 中 的 状态 S/1 
«S/1, Maria,> 
一 下 推 到 VP- 子 网 络 ， 并 在 后 进 先 出 栈 中 记 住 S/f 
<VP/0, Maria, S/f: > 
一 生成 saw， 进 入 状态 VP/1 
«VP/1, Maria saw, S/f: > 
一 下 推 到 NP- 子 网 络 ， 并 在 后 进 先 出 栈 中 记 住 VP/f 
<NP/0, Maria saw, VP/f: S/f: > 
一 在 NP- 子 网 络 中 搜索 DET， 和 生成 the， 并 进入 状态 NP/1 
<NP/1, Maria saw the, VP/f: S/f: > 
一 在 NP- 子 网 络 搜索 N， 并 生成 dog， 并 进入 状态 NP/f 
<NP/f, Maria saw the dog, VP/f: S/f: > 
一 上 托 回 VP- 子 网 络 的 最 后 状态 VPAf， 并 在 后 进 先 出 栈 中 抹 去 VP/f 


<VP/f, Maria saw the dog, S/f: > 


”继续 上 托 到 S_ 网 络 中 的 最 后 状态 S/f， 并 在 后 进 先 出 栈 中 抹 去 SA 
<S/f, Maria saw the dog,> 


这 时 ， 进 入 了 S- 网 络 中 的 最 后 状态 SAf， 后 进 先 出 栈 变 空 ， 生 成 的 
符号 串 为 “Maria saw the dog”， 生 成 完毕 。 





如 果 我 们 把 递归 转移 网 络 中 弧 上 的 单个 符号 改 为 符号 偶 对 ， 那 么 ， 
递归 转移 网 络 就 变 成 了 后 进 先 出 转录 机 (Pushdown ”Transducer， 简 称 
PIS 


我 们 建立 如 下 的 后 进 先 出 转录 机 来 作 简 单 的 英 一 法 机 器 翻译 。 


S 一 网 络 : 





VP 一 子 网 络 : 





that- que 
图 4.9 ”后 进 先 出 转录 机 














其 中 ，N-MASC 表 示 阳 性 名 词 ， 其 英 一 法 符号 偶 对 可 为 : 
man-homme (ÀA) ,  horse-cheval (4) 
N-FEMN 表 示 阴 性 名 词 ， 其 喘 一 法 符号 个 对 可 为 ; 


house-maison (房子 ) ,  table-table (桌子 ) 





DET-MASC 表 示 阳 性 限定 词 ， 其 英 一 法 符号 偶 对 可 为 : 


a-un， the-le， this-ce 
DET-FEMN 表 示 阴 性 限定 词 ， 其 喘 一 法 符号 偶 对 可 为 : 
a-une, the-la, this-cette 
NP 的 英 一 法 符号 偶 对 可 为 : 
John-Jean, Mary-Marie, Jean-Jeanne 
V 的 英 一 法 符号 偶 对 可 为 : 
sees-voit (4) , hits-frappe (FJ, fW, 
sings-chante (HB) , lacks-manque (Wb) 
WH 的 英 一 法 符号 偶 对 可 为 : 
who-qui, which-qui, that-qui 


采用 这 样 的 后 进 移出 转录 机 ， 输 入 英语 就 可 以 得 到 相应 的 法 语 ， 它 
还 能 区 分 名 词 和 限定 词 的 性 ， 比 词 对 词 的 翻译 要 稍 好 一 些 。 


但 是 ， 后 进 先 出 转录 机 在 进行 英法 机 占 翻 译 时 ， 法 语 译文 的 词 序 与 
页 语 原文 的 词 序 是 完全 一 致 的 ， 如 果 法 语 译文 的 词 序 与 英语 原文 的 词 序 
不 同 ， 就 不 能 利用 后 进 先 出 转录 机 进行 翻译 。 为 了 克服 后 进 移 出 转录 机 
的 这 个 缺陷 ， 学 者 们 在 递归 转移 网 络 的 基础 上 ， 提 出 了 扩充 转移 网 络 
(Augmented Transition Networks, faj#KATN) . 





我 们 知道 ， 在 英语 中 ， 形 容 词 修饰 名 词 时 ， 形 容 词 在 名 词 之 前 ， 而 
在 法 语 中 ， 形 容 词 修 饰 名 词 时 ， 形 容 词 却 在 名 词 之 后 。 例 如 ， 英 语 “a 


short name" (EAE) 译 为 法 语 时 ， 其 词 序 为 “un nom court*， 形 容 词 
court《〈 短 ) 在 名 词 nom《 和 名 字 ) 的 后 面 。 在 把 英语 译 为 法 语 时 ， 必 须 进 
行 词 序 的 调整 。 


扩充 转移 网 络 中 设 有 寄存 器 (registers) ， 我 们 可 以 把 有 关 的 信息 
记录 在 寄存 器 中 。 寄 存 器 中 的 信息 ， 是 以 “条 件 一 动作 ? 偶 对 的 方式 来 工 
作 的 ， 在 扩充 转移 网 络 中 每 搜索 一 个 弧 上 的 符 写 ， 都 要 首先 检 村 与 此 符 
写 有 关 的 寄存 磺 ， 看 其 是 否 符合 寄存 顺 中 条 件 的 规定 ， 并 执行 相应 的 动 
作 ， 才 能 通过 这 个 符 写 而 进入 下 一 个 状态 。 有 了 这 样 的 寄存 器 ， 我 们 就 
不 难 在 英法 机 器 翻译 中 进行 词 序 的 调整 了 。 




















具体 说 来 ， 我 们 可 以 在 扩充 转移 网 络 的 NP- 子 网 络 的 最 后 状态 设置 
寄存 器 FNP， 如 果 英 译 法 时 译 的 是 人 名 ， 则 将 英语 的 人 名 直接 译 为 法 语 
的 人 名 ， 如 果 英 译 法 时 译 的 是 由 形容 词 与 名 词 构成 的 名 词 词 组 ， 那 么 ， 
我 们 还 要 设置 FDET， FADJS 和 FNOUN 等 寄存 器 来 记录 名 词 词 组 翻译 中 
要 用 的 有 关 信 息 。 











扩充 转移 网 络 的 VP- 子 网 络 如 图 4.10 所 示 。 


ADJ 
14.10 ”调整 词 序 的 扩充 转移 网 络 





这 个 扩充 转移 网 络 设置 了 FADJS， FNOUN, FDET 和 EFNP 四 个 寄存 
器 。 它 们 的 作用 如 下 : 


一 在 初始 状态 qo ， 置 寄存 器 FADJS 为 空 符号 串 ; 

一 在 最 后 状态 qr ， 返 回 寄存 器 FNP; 

一 从 状态 qu BRAG, ， 搜 索 DET， 置 寄存 器 FDET 为 French (” ) , 
C 表示 当前 词 ; 

一 从 状态 q; 返回 到 状态 qt! ， 搜 索 ADJ， 置 寄存 器 FADJS 为 FADJS + 


French (”) ; 


一 从 状态 gq; 到 状态 qt ， 搜 索 N， 置 寄存 器 FNOUN 为 French C ) , 


由 于 gf 是 最 后 状态 ， 返 回 寄存 器 FNP， 再 置 寄 存 器 FNP 为 FDET + 
FNOUN + FADJS. 











在 上 述 式 子 中 ,，“+” 写 表示 是 符 写 串 的 毗连 ， 也 就 是 把 “+” 号 前 后 的 
单词 连 起 来 并 在 其 间 加 一 个 空白 。French 是 一 个 函数 ， 它 把 英语 词 译 成 
相应 的 法 语词 。French C — ) 表示 把 当前 的 英语 词 译 成 相应 的 当前 法 语 
词 。 寄 存 器 FADJS 用 来 存储 将 要 翻译 的 形容 词 符号 序列 ， 当 在 名 词 词 组 
中 发 现 还 有 更 多 的 形容 词 时 ， 就 把 与 它们 相应 的 法 语 形容 词 逐 一 地 加 到 
该 寄存 器 当前 值 的 尾部 。 由 于 在 最 后 状态 置 寄 存 问 FNP 为 FDET + 
FNOUN + FADJS, ixff, supr AT ta] BT AAE 
容 词 在 法 语 译文 中 加 到 名词 的 后 面 去 ， 从 而 实现 词 序 的 调整 。 


由 此 可 以 看 出 ， 在 对 一 个 扩充 转移 网 络 进 行 遍 历 的 任何 一 个 时 刻 ， 
计算 机 运算 的 格局 应 该 由 R1, R2, R3 和 R4 四 个 部 分 组 成 。 





一 R1: 当前 状态 的 名 字 ; 


一 R2: 输入 符号 串 中 尚未 识别 的 部 分 ; 
—R3: 后 进 先 出 栈 中 的 情况 ; 
一 R4: 寄存 器 的 情况 。 


与 递归 转移 网 络 相 比 ， 扩 充 转 移 网 络 中 计算 机 运算 的 格局 多 出 了 
R4， 即 寄存 器 的 情况 。 


在 法 语 中 ， 限 定 词 和 形容 词 的 性 必须 与 它们 所 说 明 的 名 词 的 性 保持 
一 致 关系 。 如 果 名 词 为 阳性 ， 则 说 明 它 的 限定 词 和 形容 词 就 用 阳性 形 
式 ， 如 果 名 词 为 阴性 ， 则 说 明 它 的 限定 词 和 形容 词 束 用 阴性 形式 。 例 
Tl: 


英语 a green tree (一 棵 绿 树 ) 译 为 法 语 时 为 un arbre vert， 因 为 名 词 
arbre (PT) 是 阳性 ， 所 以 ， 在 后 面 说 明 它 的 形容 词 用 阳性 形式 
vert (AR) ， 在 前 面 说 明 它 的 不 定 冠 词 用 阳性 形式 un。 





英语 a green table〈 一 张 绿 色 的 桌子 ) 译 为 法 语 时 为 une table verte, 
因为 名 词 table (527) 是 阴性 ， 所 以 ， 在 后 面 说 明 它 的 形容 词 用 阴性 形 
式 verte( 绿 ) ， 在 前 面 说 明 它 的 不 定 冠 词 用 阴性 形式 une。 


为 了 解决 这 样 的 一 致 关系 问题 ， 我 们 在 有 限 状态 转移 网 络 中 曾 采 用 
过 增加 状态 和 弧 的 办 法 ， 使 阳性 名 词 的 识别 走 一 条 路 ， 而 阴性 名 词 的 识 
别 走 男 一 条 路 ， 而 形容 词 和 限定 词 的 性 ， 则 根据 它们 所 说 明 的 名 词 的 性 
来 决定 。 然 而 ， 在 实际 的 过 历 过 程 中 ， 只 有 一 条 路 的 搜索 会 导致 成 功 ， 
因而 这 种 分 别 为 阳性 名 词 和 阴性 名 词 设 置 不 同 路 径 的 方法 ， 显 得 十 分 庞 
杂 ， 运 行 效率 也 比较 低 。 


如 果 我 们 使 用 扩充 转移 网 络 ， 那 么 ， 我 们 只 要 设置 一 个 叫做 











FEGENDER 的 寄存 器 ， 在 这 个 寄存 器 中 记录 着 有 关 性 的 一 致 关系 的 信 
电 ， 阳 性 名 词 和 阴性 名 词 共 同 使 用 一 个 弧 ， 只 要 在 寄存 器 中 根据 阳性 名 
词 和 阴性 名 词 的 不 同 而 使 相应 的 限定 词 和 形容 词 取 不 同 的 值 ， 在 遍历 过 
程 中 ， 如 果 是 阳性 名 词 ， 则 限定 词 和 形容 词 的 性 就 取 阳 性 形式 为 其 值 ， 
如 果 是 阴性 名 词 ， 则 限定 词 和 形容 词 就 取 阴 性 形式 为 其 值 。 这 样 ， 在 网 
络 中 不 必 增 加 新 的 状态 和 新 的 弧 ， 就 可 以 解决 法 语 名 词 词组 中 性 的 一 致 
关系 问题 。 








这 样 的 扩充 转移 网 络 中 的 NP- 子 网 络 如 下 : 


ADJ 
图 4.11 处理 一 致 关系 的 扩充 转移 网 络 




















这 个 扩充 转移 网 络 中 设置 了 FADJS， FDET, FNP,  FNOUN, 
FGENDER 五 个 寄存 器 


这 五 个 寄存 器 的 作用 如 下 : 

一 在 最 后 状态 qr ， 返 回 FNP; 

一 从 状态 qo 到 状态 ql ， 搜 索 DET， 置 寄存 器 FGENDER 
为 “masculine”( 阳 性 ) ， 置 寄存 器 FDET 为 French (* , "masculine") ; 


一 从 状态 qo 到 状态 qi ， 搜 索 DET， 置 寄存 器 FGENDER 


为 “*feminine”( 阴 性 ) ， 置 寄存 器 FDET 为 French C, "feminine") ; 


一 从 状态 qi 返回 到 状态 q; ， 置 寄存 器 FADJS 为 FADJS + French C, 
FGENDER) ; 


一 从 状态 q; “到 最 后 状态 qi ”， 置 寄存 器 FNOUN 为 French (” 2, 


FNOUN 的 性 必须 与 FGENDER 的 性 一 致 ， 并 置 FNP 为 FDET + FNOUN + 
FADJS. 


French 是 一 个 函数 ， 它 的 作用 是 把 英语 词 翻译 成 相应 的 法 语词 ， 
French C.) 表示 把 当前 的 英语 词 翻译 成 当前 的 法 语词 。 由 于 使 用 了 寄 
存 器 FGENDER， 使 得 我 们 可 以 根据 不 同 的 条 件 来 决定 所 取 法 语词 的 
性 ， 从 而 在 名 词 词组 中 ， 保 持 名 词 与 说 明 它 的 限定 词 和 形容 词 在 性 上 的 
一 致 。 





在 现代 人 工 乔 能 研究 中 ， 有 两 种 不 同 的 形式 化 知识 表达 方式 。 一 种 
方式 是 说 明 性 知识 表达 方式 (declarative knowledge representation) , — 
种 方式 是 过 程 性 表达 方式 (procedural knowledge representation) 。 说 明 
性 知识 表达 方式 痢 重 于 知识 的 静态 方面 ， 它 描述 客体 、 事 件 及 其 相互 间 
的 联系 ， 要 求 用 户 给 出 已 知 条 件 ， 而 不 需要 给 出 操作 的 步骤 。 而 过 程 性 
知识 表达 方式 则 强调 知识 的 动态 方面 ， 它 要 说 明 问 题 的 求解 过 程 ， 要 求 
用 户 给 出 解决 该 问题 的 操作 步骤 ， 说 明 先 做 什么 ， 再 做 什么 ， 最 后 做 什 
么 ， 每 条 规则 就 是 一 个 “条 件 一 动作 ” 侦 对 的 操作 序列 ， 用 户 可 以 直接 将 
一 些 启 发 式 的 控制 知识 租 入 规则 中 ， 从 而 提高 问题 求解 的 效率 。 





有 限 状 态 转 移 网 络 和 递归 转移 网 络 显然 都 是 说 明 性 的 知识 表达 方 
式 ， 它 们 只 要 求 用 户 给 出 完备 正确 的 前 提 条 件 和 相应 的 状态 转换 规则 ， 
而 问题 求解 的 方式 和 策略 则 完全 隐 仿 在 控制 系统 之 中 。 因 此 ， 只 要 根据 
有 限 状 态 转移 网 络 和 递归 转移 网 络 的 一 般 性 原则 ， 我 们 就 可 以 处 理 形 形 


色色 的 、 各 不 相同 的 任务 。 而 扩充 转移 网 络 则 有 很 强 的 过 程 性 ， 设 计 一 
个 扩充 转移 网 络 很 像 设 计 一 个 计算 机 程序 ， 它 要 详细 地 、 具 体 地 说 明 问 
题 的 求解 过 程 ， 因 此 ， 扩 充 转移 网 络 只 用 于 解决 它 所 要 解决 的 特定 问 
题 。 例 如 ， 我 们 前 面 设计 的 用 于 英法 机 器 翻译 的 扩充 转移 网 络 ， 不 能 
来 进行 瑞 语 的 随机 生成 ， 也 不 能 用 来 进行 反方 回 的 法 瑞 机 避 翻 译 。 然 
而 ， 扩 充 转移 网 络 进行 问题 求解 的 效率 却 很 高 ， 这 是 它 的 一 个 突出 的 优 
扩 ， 在 很 多 自然 语言 处 理 系 统 中 ， 扩 充 转 移 网 络 得 到 广泛 的 采用 。 











由 此 可 见 ， 说 明 性 的 知识 表达 方式 与 过 程 性 的 知识 表达 方式 各 有 利 
次， 我 们 应 该 把 它们 恰当 地 结合 起 来 ， 更 好 地 解决 自然 语言 处 理 中 的 各 


种 问题 。 





递归 转移 网 络 和 扩充 转移 网 络 都 把 句子 分 解 成 一 些 词组 来 进行 理 
解 ， 这 样 的 处 理 方式 与 人 脑 中 进行 的 对 于 自然 语言 句子 的 分 析 方 式 有 相 
近 之 处 。 心 理 语言 学 的 研究 证 明 ， 听 话 人 在 理解 句子 时 也 是 把 句子 分 解 
为 一 个 个 的 组 成 成 分 来 进行 的 。 美 国学 者 弗 托 (J. A. Fodor) 发 现 ， 语 
言 的 知觉 单位 相当 于 句子 的 组 成 成 分 ， 人 们 在 理解 输入 的 句子 时 总 是 把 
句子 分 解 成 一 些 组 成 成 分 ， 如 NP, VP 等 。 作 为 一 个 单位 ， 它 们 相对 地 不 
受 外 界 刺 激 的 影响 ， 并 力图 抵制 外 来 的 干扰 而 保持 其 完整 性 。 他 们 做 过 
这 样 的 实验 : 让 被 试 者 的 一 个 耳 灯 听 语 言 ， 男 一 个 耳 条 听 卡 擦 声 ， 如 果 
卡 擦 声 在 组 成 成 分 的 交界 处 ， 被 试 者 很 容易 察觉 卡 擦 声 出 现 的 位 置 ， 但 
如 果 卡 探 声 出 现在 一 个 组 成 成 分 的 中 间 ， 被 试 者 就 难以 察觉 出 它 的 实际 
位 置 ， 往 往 把 卡 擦 声 察觉 为 发 生 在 接近 组 成 成 分 的 交界 处 。 这 样 的 心理 
语言 学 实验 ， 为 递归 转移 网 络 和 扩充 转移 网 络 把 句子 分 解 为 词组 来 进行 
自动 处 理 ， 在 理论 上 找到 了 根据 。 

















Pete — 


Bo AURA E SIEZUNI E] Al 
下 剖析 法 


目 动 句法 分 析 就 是 计算 机 自动 地 识别 句子 的 各 个 句法 单位 以 及 它们 
之 间 的 相互 关系 的 过 程 ， 这 个 过 程 ， 又 叫做 “ 训 析 ”(parsing， 我 们 把 英 
文 parsing 翻 译 为 “ 训 析 ?”， 是 为 了 使 汉语 译名 与 英文 原 词 谐音 ， 国 内 学 者 
也 有 把 这 个 术语 翻译 为 “自动 句法 分 析 ” 的 〉。 








目 然 语言 的 剖析 技术 是 建立 在 目 然 语 言 的 形式 语法 Cformal 
grammar) 的 基础 之 上 的 。 所 谓 训 析 ， 残 是 要 用 形式 语法 来 分 析 语 言 名 
子 的 结构 ， 使 之 能 清晰 地 、 形 式 化 地 表示 出 来 ， 因 此 ， 形 式 语法 在 自然 
语言 的 训 析 中 有 着 极为 重要 的 作用 。 








一 般 地 说 ， 一 种 好 的 形式 语法 ， 在 语言 的 描述 方面 应 该 尽量 地 目 
然 、 明 白 、 易 懂 ， 在 数学 的 表达 方面 ， 应 该 有 很 强 的 说 明 力 和 解释 力 ， 
在 计算 技术 方面 ， 应 该 具有 较 高 的 效率 。 








美国 语言 学 家 齐 姆 斯 基 提 出 ， 形 式 语法 G 可 以 用 下 面 的 四 元 组 来 定 
X: 

G = (VN, VT, S, P) 

其 中 ，VN 是 非 终极 符号 的 集合 ， 这 些 符号 是 专门 用 来 描述 语法 类 
别 的 ， 它 们 是 范畴 符号 ， 如 词类 符号 、 词 组 类 型 符号 等 ，VIT 是 终极 符 
号 的 集合 ， 它 们 就 是 被 定义 语言 中 的 具体 的 单词 ，S 是 初始 符 写 ， 它 是 
集合 VN 中 的 一 个 特殊 成 员 ; P 是 重 写 规则 的 集合 ， 其 中 的 每 一 条 规则 都 














oy 

的 形式 ，@ 称 为 规则 的 左 部 (Left Hand Side, f EKLHSO , wA 334 ul 
的 右 部 (Right Hand Side, f£ fKRHS) ， 中 由 意味 着 可 以 用 规则 的 右 部 
OK MAU Ze Buy 

给 定 了 一 个 语法 G， 我 们 就 可 以 从 初始 符号 $ 开 始 ， 应 用 重 写 规则 
推导 出 这 种 语法 G 所 描述 的 语言 L (G) .具体 地 说 ， 我 们 可 以 用 重 写 规 
则 S o, ， 从 S 推 导出 新 的 符号 串 @ ， 再 利用 重 写 规则 @ ~ 0. , Mo, 
推导 出 新 的 符号 串 @。，，.…， 一 直到 我 们 得 到 不 能 再 重 写 的 符号 串 中 ， 为 
止 。 这 样 推导 出 的 终极 符号 串 @ ， ， 就 是 语言 L (G) 的 成 立 句 子 。 





第 一 章 中 我 们 曾经 提 到 过 的 短语 结构 语法 ， 束 是 错 姆 斯 基 形 式 语法 
中 最 重要 的 一 个 类 型 。 确 切 地 说 ， 这 种 短语 结构 语法 应 该 叫做 上 下 文 无 
关 的 短语 结构 语法 (Context-Free Phrase Structure Grammar， 简 称 CF- 
PSG) 。 这 种 语法 的 重 写 规则 是 : 





A>0 


FEA, ARRARIR S GIAR . o EKSE, on 
以 由 终极 答 写 组 成 ， 也 可 以 由 非 终极 符 号 组 成 ， 也 可 以 由 终极 符 写 与 非 
终极 符号 混合 组 成 。 


有 了 一 个 上 下 文 无 天 的 短语 结构 语法 ， 我 们 就 可 以 用 RHS 中 的 符号 
串 来 重 写 LHS 中 的 范畴 符号 ，RHS 的 符号 串 中 可 以 含有 范畴 符号 ， 也 可 
以 含有 具体 的 单词 。 当 用 上 下 文 无 关 的 短语 结构 语法 把 LHS 中 的 范畴 符 





号 重 写 为 具体 的 RHS 的 时 候 ， 不 必 考 虑 LHS 的 范畴 符号 所 出 现 的 上 下 
文 ， 规 则 的 使 用 对 于 上 下 文 没有 任何 的 限制 ， 这 就 是 为 什么 这 种 语法 叫 
做 “上 下 文 无 关 的 短语 结构 语法 ”的 原因 。 当 今 在 程序 设计 语言 中 所 使 用 
的 巴 库 斯 一 瑞 尔 范式 CBacus-Naur Normal Form) 就 是 上 下 文 无 关 的 短 
语 结构 语 法 。 


为 了 行文 上 的 方便 ， 在 不 引起 混 消 的 情况 下 ， 我 们 在 下 面 的 叙述 
中 ， 把 上 下 文 无 关 的 短语 结构 语法 叫做 “短语 结构 语法 ”。 


我 们 提出 如 下 的 短语 结构 语法 : 
G = (VN, VT, S, P) 
VN = |S, NP, VP, V] 
VT = | Ke, A, iri I 


Sai 8] 
S — NP + VP (i) 
VP — V + NP (ii) 
VP— V ( iii ) 
NP 一 | KEE, i+ 45 | ( iv) 
V —| X "LÀ | ( v) 


Pi. BOTA Bea RAS TP AR. 3th e] T MEER RAE Br" IE 


推 寻 过 程 所 用 规则 


S 开始 
NP VP (i) 

NP V NP (ii) 
WEE V NP (iv) 
MWEE FE NP ( v) 


WEE # Tru (iv) 
上 述 推导 过 程 ， 也 就 是 这 个 句子 的 生成 过 程 。 


由 短语 结构 语法 生成 的 句子 ， 可 以 用 如 下 的 树 形 图 来 表示 : 





S 
> c 
NP VP 
| A S 
WR V NP 


14.12 MIRE 








这 种 与 短语 结构 语法 相对 应 的 树 形 图 ， 叫 做 “短语 结构 树 ”(Phrase 


Structure Tree) 。 





我 们 也 可 以 把 短语 结构 树 表示 为 一 个 表 〈list) ， 表 中 的 第 一 个 元 
素 是 树 形 图 的 根 上 的 标记 ， 后 面 的 各 个 元 素 是 相应 结 点 的 直接 后 裔 的 标 
记 ， 按 它们 在 句子 中 出 现 的 顺序 排列 ， 在 LISP 语 言 中 ， 上 述 的 短语 结构 
树 可 表示 为 : 








(S (CNP 林 袋 玉 ) CNP (VÆ) (CNP 诗 稿 ) ) ) 


由 于 表 中 的 第 一 个 元 素 是 树 形 图 中 根 结 点 的 标记 ， 尔 后 的 各 个 元 素 
依次 是 其 后 裔 的 标记 ， 而 这 些 元 素 本 身 也 是 表 。 这 样 的 表 写 成 下 面 的 形 
ATEH: 





(S 
(NP WEE) 
( VP 
( V X ) 
(NP  i#4% ) ) ) 
上 上 面 的 短语 结构 语法 也 可 以 生成 多 子 “ 林 集 玉 叹 姑 ”。 其 推导 过 程 


H 
AE: 





图 4.13 ”短语 结构 树 


其 短语 结构 树 为 : 


所 用 规则 
开始 

(i) 

( iii ) 

( iv ) 

(v) 


了 以 县 


这 个 短语 结构 树 在 LISP 语 言 中 可 表示 为 : 
(S 
(NP EAE) 
(WP 


(V | 95 & ))) 
如 果 一 种 语言 可 以 由 短语 结构 语法 来 描述 ， 也 就 可 以 用 递归 转移 网 
络 来 描述 ， 由 于 短语 结构 语法 是 上 下 文 无 天 的 ， 因 此 ， 这 种 语言 可 以 称 
之 为 上 下 文 无 关 语 言 (Context Free Language， 简 称 CFL) 。 


短语 结构 语法 便于 书写 ， 便 于 修改 ， 因 而 受到 了 自然 语言 处 理 研 究 
者 的 普通 欢迎 ， 推 动 了 目 然 语 言 处 理 的 有 发展， 在 目 然 语言 处 理 中 屡 建 奇 
功 。 短 语 结构 语法 的 形式 清晰 ， 易 学 易 记 ， 在 剖析 、 翻 译 和 编译 等 技术 
中 得 到 广泛 的 应 用 ， 目 然 语 言 处 理 早已 研制 出 了 用 于 谢 析 和 识别 上 下 文 
无 关 语 言 CFL 的 高 效 算 法 ， 上 下 文 无 关 的 短语 结构 语法 的 剖析 程序 已 经 
制 成 专用 的 软件 ， 可 见 自然 语言 处 理学 界 对 于 短语 结构 语法 之 重视 。 




















下 面 ， 我 们 介绍 几 种 基于 短语 线 构 语法 的 放 析 技术 。 





(1) BIS. Er Cbottom-up parsing) 


WREATH Mal DO SITUE RA NS. ZB 
之 后 ， 这 个 句子 的 词 与 词 之 间 出 现 了 空白 ， 其 形式 变 为 : 





MEE Se 诗 稿 


使 用 前 述 的 短语 结构 语法 G， 我 们 可 知 第 一 个 词 “ 林 黛 玉 ” 应 该 属于 
NP 这 个 句法 范畴 ， 因 为 在 语法 G 的 重 写 规则 Gv) 中 ， 与 规则 右 部 
RHS“ 林 黛 玉 ” 相 匹 配 的 规则 左 部 LHS 是 范畴 符号 NP。 这 样 ， 我 们 得 到 如 
下 的 剖析 图 


NP 
KEEL AX 诗 稿 


然后 ， 我 们 继续 剖析 符号 串 “NP 焚 ” 诗 稿 ”。 我 们 检查 在 语法 G 
中 ， 有 没有 右 部 RHS 为 NP 的 重 写 规则 。 例 如 ， 如 果 在 语法 G 中 有 K — NP 
这 样 的 重 写 规则 ， 那 么 ， 我 们 束 可 以 把 NP 置 于 K 之 下 ， 让 K 来 文 配 NP; 
但 是 ， 在 我 们 的 语法 G 中 没有 这 样 的 重 写 规 则 ， 因 此 ， 我 们 来 检查 所 得 
符号 串 中 的 第 二 个 词 “ 焚 ”*”， 根 据 规则 (v〉， 我 们 发 现 “ 焚 ”的 范畴 符号 
是 V， 于 是 ， 我 们 得 到 剖析 图 


NP V_ 
MARGO X0 HA 


在 剖析 过 程 中 ， 我 们 要 设法 在 语法 G 所 容许 的 范围 内 ， 尽 量 把 符号 
串 中 的 范畴 符 扎 组 合 起 来 。 








首先 ， 我 们 再 一 次 检查 在 语法 G 中 ， 有 没有 右 部 RHS 只 包含 NP 的 重 
写 规则 ， 检 查 结果 是 没有 ， 然 后 ， 我 们 再 检查 在 语法 G 中 ， 有 没有 能 把 
NP 和 V 组 合 起 来 的 重 写 规 则 ， 检 查 结 果 也 是 没有 。 于 是 ， 我 们 来 检查 符 























SENP V 中 的 第 二 项 V， 看 一 看 语法 G 中 ， 有 没有 规则 右 部 RHS 为 V 的 
重 写 规 则 ， 我 们 发 现 重 写 规则 〈 证 ) 正 是 这 样 的 规则 ， 于 是 ， 我 们 把 V 
置 于 VP 的 支配 之 下 ， 得 到 齐 析 图 


VP 
NP V 
Mun X TS 


现在 ，VP 位 于 初始 符号 NP 之 后 。 我 们 再 一 次 检查 语法 G 中 有 没有 
右 部 RHS 中 只 包含 NP 的 重 写 规 则 ， 检 得 结 采 是 没有 。 我 们 再 来 检查 语 
法 G 中 有 没有 规则 右 部 RHS 为 符号 串 NP ”VP 的 重 写 规则 ， 检 查 结果 发 
现 ， 规 则 G 束 是 这 样 的 重 写 规则 ， 其 左 部 LHS 为 3， 于 是 ， 把 NP VP 
置 于 S 的 支配 之 下 ， 得 到 剖析 图 


S 














这 时 ，S 的 跨度 从 NP 开始 ， 到 VP 结束 ， 得 到 的 符号 串 为 “S 诗 稿 ”。 
在 语法 G 中 ， 没 有 右 部 RHS 为 $ 或 “S 诗 稿 ” 的 重 写 规则 ， 于 是 ， 我 们 碍 得 
重 写 规则 Gv) 的 右 部 为 “ 诗 稿 ”， 其 左 部 LHS 为 NP， 于 是 ， 我 们 得 到 齐 
析 图 





S 


NP. V NP 


WEE X 诗 稿 
在 这 种 情况 下 ， 我 们 不 可 能 再 继续 处 理 了 ， 因 为 在 语法 G 中 ，S 不 

可 能 单独 作为 规则 右 部 RHS， 符 号 串 S NP 也 不 可 能 作为 规则 右 部 RHS， 
NP 也 不 能 单独 作为 规则 右 部 RHS。 然 而 我 们 的 目标 是 要 使 S 能 跨 凌 于 整 
个 的 输入 符号 串 ， 而 按 刚才 的 痢 析 过 程 ，S 的 跨度 只 能 包含 输入 符号 串 
中 的 头 两 个 词 “ 林 袋 玉 焚 ”"”， 而 第 三 个 词 “ 诗 稿 " 却 在 NP 的 支配 之 下 ， 孤 零 
零 地 处 于 S 的 跨度 之 外 。 显 而 易 见 ， 我 们 一 定 是 在 剖析 过 程 的 什么 地 方 
误 入 政 途 ， 而 导致 了 衣 析 的 失败 ， 使 副 析 进入 了 死胡同 。 





为 了 跳出 这 个 死胡同 ， 我 们 采用 “回溯 ”(backtracking〉 的 办 法 ， 回 
到 放 析 过 程 中 进行 多 中 选择 的 情况 去 。 为 此 ， 我 们 首先 把 支配 <* 诗 稿 ” 的 
NP 去 掉 ， 再 把 支配 NP VP 的 S$ 去 掉 ， 得 到 剖析 图 


VP 
NP V 


TRA FOE 诗 稿 
我 们 可 以 看 出 ， 前 面 的 剖析 过 程 之 所 以 进入 死胡同 ， 是 因为 我 们 过 
早 地 把 NP 与 VP 结合 起 来 置 于 S$ 的 支配 之 下 ， 而 VP 本 和 刁 叉 不 能 单独 地 出 
现在 语法 G 的 重 写 规则 的 右 部 RHS 之 中 ， 因 此 ，， 剩 下 来 的 唯一 选择 ， 
就 是 用 重 写 规则 Wil ， 把 最 后 一 个 词 “ 诗 稿 * 置 于 NP 的 支配 之 下 ， 我 们 
43-581] FT A 





VP 
NP. V NP — 


HKG FOE 诗 稿 
在 这 种 情况 下 ， 我 们 首先 检查 符号 串 NP VP NP 能 否 出 现在 语法 
G 重 写 规则 的 右 部 RHS， 发 现 不 行 ， 再 检查 符号 串 VP ”NP 能 否 出 现在 语 
法 G 重 写 规则 的 右 部 RHS， 人 发 现 也 不 行 ， 最 后 再 检查 句 末 的 NP 能 人 否 置 于 
另 一 个 范畴 符号 的 支配 之 下 ， 发 现 也 不 行 ，“〈 我 们 已 经 多 次 检查 过 NP 
能 否 作为 规则 右 部 RHS， 但 答案 总 是 否定 的 ) 。 这 样 一 来 ， 我 们 又 再 一 
次 进入 死胡同 中 。 




















检查 了 VP 这 个 范畴 符号 与 别 的 成 分 结合 的 一 切 可 能 性 之 后 ， 我 们 


发 现 ， 直 接 文 配 V 的 VP 这 个 范畴 符号 不 能 引导 我 们 找到 成 功 的 途径 。 
此 ， 我 们 不 得 不 进一步 回调， 抹 去 VP 这 一 个 范畴 符号 ， 于 是 ， 我 们 得 
Sum pr Ed 


NP. V NP. 


ARABES M T fS 


我 们 来 检查 符号 串 V_ NP 能 否 成 为 语法 G 中 重 写 规则 的 右 部 RHS，， 
发 现 重 写 规 则 (Gi) 正好 满足 这 样 的 条 件 ， 于 是 ， 我 们 把 符 写 串 V NPE 
于 VP 的 文 配 之 下 ， 其 路 度 从 V 到 NP， 我 们 得 到 剂 析 图 


PEN GE 
NP V NP. 


MER X TES 
回 到 句子 的 开头 ， 我 们 首先 检查 NP 能 和 否 单独 地 作为 RHS， 发 现 不 
行 ， 接 着 再 检查 符号 串 NP VP 能 否 单独 地 作为 RHS， 根 据 重 写 规则 
G) ， 可 把 这 个 符号 串 NP VP 置 于 S 的 支配 之 下 ， 于 是 ， 我 们 把 $ 加 到 我 
们 的 剖析 图 中 ， 得 到 











S 

-ME 
NP V NP 
WARE X 诗 稿 


这 个 $ 与 前 面 的 那个 S 不 一 样 ， 它 的 跨度 从 句 首 开始 ， 到 句 末 结束 ， 


履 盖 了 整个 句子 ， 因 此 ， 句 子 的 剖析 成 功 。 
前 面 的 剖析 过 程 可 以 归结 为 如 下 的 搜索 树 : 


PK Bt E po WES 
NP pa T 
NP V 诗 稿 


— — 


NP VP 诗 稿 


NP V NP 
S 诗 稿 NP VP 
| 
S NP 4 
| 剖析 成 功 ] 


图 4.14 自 底 向 上 剖析 的 搜索 树 


从 搜索 树 上 可 以 看 出 ， 要 完成 一 个 句子 的 训 析 ， 其 搜索 过 程 是 比较 
复杂 的 。 如 果 搜 索 一 开始 ， 就 能 找到 正确 的 途径 而 得 到 成 功 ， 那 当然 是 
最 理想 不 过 的 。 然 而 ， 在 实际 的 剖析 过 程 中 ， 往 往 要 经 过 多 次 的 反复 和 
回 溯 才能 取得 成 功 ， 有 时 还 要 不 大 其 烦 地 穷尽 各 种 可 能 性 ， 我 们 的 程序 
忆 有 那么 一 股 硕 强劲 ， 不 达 目 的 ， 决 不 休止 。 在 这 个 搜索 树 中 可 以 看 
出 ， 如 末 我 们 按照 如 下 的 顺序 搜索 ， 便 可 避 开 死胡同 ， 直 接 走 上 成 功 之 
途 ， 真 是 “踏破 铁 鞋 无 疯 处 ， 得 来 全 不 费 工 夫 ”。 








M S E ae 诗 稿 
NP M 诗 稿 
NP V 诗 稿 
NP V NP 
NP VP 


B 
用 LISP 语 言 ， 我 们 很 容易 就 可 以 把 上 述 的 自 底 向 上 剖析 过 程 一 目 了 
然 地 写 出 来 。 


(WEE 焚 诗 稿 ) 


(CNP WEE) X 诗 稿 ) 

(CNP E2) (V A) 诗 稿 ) 

((NP WE) (V 4) (NP 诗 稿 )) 

(CNP WE) (VP (V X) (NP 诗 稿 ))) 

(S((NP WE) (VP (V #) (NP 诗 稿 )))) 

心理 学 家 金 补 尔 (J. P. Kimball) 研究 证 明 ， 人 们 在 理解 自然 语言 

时 ， 总 是 试图 把 新 出 现 的 词 依 附 到 前 面 与 它 紧 连 的 组 成 成 分 上 ， 把 这 个 
词 与 它 前 面 的 一 个 词 联 系 起 来 ， 以 便 减 轻 记 忆 的 负担 ， 避 免 从 记忆 中 搜 
索 有 关 的 组 成 成 分 或 词汇 。 由 于 使 用 这 样 的 策略 ， 人 们 在 理解 如 下 的 英 
语句 子 时 往往 会 感到 困惑 : 








The man offered one thousand dollars for the conference is my 
uncle. 
(为 会 议 提供 一 干 美元 资助 的 人 是 我 的 叔父 。) 
The horse raced past the barn fell. 
《疾驰 过 牲口 棚 的 那 匹 马 跌倒 了 。) 


人 们 在 开始 时 往往 会 把 第 一 句 中 的 offered 当 作 它 前 面 的 词 man 的 谓 
语 ， 把 第 二 句 中 的 raced 当 作 它 前 面 的 词 horse 的 谓语 ， 等 到 句子 快 结 
时 ， 才 发 现 这 样 的 理解 是 错误 的 ， 于 是 回 过 头 去 对 句子 重新 进行 分 析 ， 
采取 类 似 于 “回溯 ”的 方法 ， 从 而 得 到 正确 的 理解 。 这 种 句子 叫做 “花园 
HAAJ” Cgarden path sentence) ， 它 正如 花园 中 曲 曲 弯 这 的 幽 径 那样 ， 
需要 颇 费 周折 才 可 能 通过 。 人 金 补 尔 研 究 为 剖析 技术 中 的 回潮 机 制 提供 了 
心理 学 上 的 根据 。 














(2) Him] Rar (top-down parsing) 
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析 。 为 了 便于 读者 了 解 思路 ， 我 们 以 第 一 人 称 “ 我 ?作为 叙述 的 主体 ， 目 
项 问 下 齐 析 的 过 程 大 致 如 下 : 


一 我 来 找 奋 $S 


一 S 由 什么 组 成 ? 
一 S 由 一 个 NP 后 面 跟 着 一 个 VP 组 成 
一 所 以 我 得 首先 找 伍 NP 
一 NP 由 什么 组 成 ? 
一 语法 G 中 没有 什么 规则 可 以 扩展 NP 
一 单词 * 诗 稿 > 可 以 作为 范畴 符号 NP 的 一 个 成 员 


一 “ 诗 稿 * 这 个 单词 是 句子 中 开头 的 第 一 个 词 吗 ? 
一 个 是 

一 单词 “ 林 念 玉 ” 可 以 作为 范畴 符 写 NP 的 一 个 成 员 
一 “ 林 集 玉 ” 这 个 单词 是 句子 中 开头 的 第 一 个 词 吗 ? 
一 是 的 

一 我 找到 了 包含 单词 “ 林 焦 玉 ” 的 一 个 NP 

一 现在 ， 我 要 来 找 奋 VP 了 


一 VP 由 什么 组 成 ? 


一 一 个 VP 可 由 一 个 V 组 成 
一 现在 我 需要 找 查 V 
一 V 由 什么 组 成 ? 
一 语法 G 中 有 没有 什么 规则 可 以 扩展 V 
一 单词 “ 叹 奶 ”可 以 作为 范 暑 符号 V 的 一 个 成 员 
一 “ 叹 娠 ”是 句子 中 从 句 首 开始 的 第 二 个 单词 吗 ? 
一 不 是 
一 单词 * 焚 ?可 以 作为 范畴 符号 V 的 一 个 成 员 
一 “ 焚 ” 是 句子 中 从 人 句 首 开始 的 第 二 个 单词 吗 ? 
一 是 的 
一 我 找到 了 组 成 V 的 单词 是 “ 焚 ” 
一 我 发 现 VP 是 由 V 组 成 的 ， 而 V 又 是 由 单词 “ 禁 * 组 成 的 
一 我 发 现 S$ 是 由 包含 单词 “林黛玉 ”的 一 个 NP 以 及 包含 单词 “ 焚 ” 的 一 
个 由 V 组 成 的 VP 这 两 部 分 组 合 而 成 的 
一 是 不 是 到 达 了 句子 的 结尾 了 ? 
一 没有 
一 哎呀 ， 一 定 是 我 做 错 了 什么 事 


一 回溯 到 处 ， 用 另外 的 办 法 来 做 
一 我 仍然 需要 找 查 VP 
一 VP 是 由 什么 组 成 的 ? 
一 VP 也 可 以 由 一 个 V 后 面 跟着 一 个 NP 组 成 
一 现在 我 要 找 查 V 
一 V 是 由 什么 组 成 的 ? 
一 语法 G 中 没有 什么 规则 可 以 扩展 V 
一 单词 “ 叹 姑 ? 可 以 作为 范畴 符号 V 的 一 个 成 员 
一 句子 中 从 句 首 开始 的 第 二 个 词 是 “叹息 ” 吗 ? 
一 不 是 
一 单词 “ 焚 ? 可 以 作为 范畴 符号 V 的 一 个 成 员 
一 句子 中 从 句 首 开始 的 第 二 个 词 是 “ 焚 ? 吧 ? 
一 是 的 
一 我 找到 了 组 成 V 的 单词 是 “ 禁 ” 
一 现在 我 要 找 查 NP 
一 NP 是 由 什么 组 成 的 ? 
一 在 语法 G 中 没有 什么 规则 可 以 扩展 NP 
一 单词 “ 诗 稿 "可 以 作为 范畴 符号 NP 的 一 个 成 员 
一 句子 中 单词 “ 禁 ” 的 下 面 一 个 词 是 “ 诗 稿 " 吗 ? 
一 是 的 
一 我 发 现 了 NP 是 由 单词 “ 诗 稿 * 组 成 的 
一 我 发 现 了 VP 包含 一 个 由 单词 “ 焚 ” 组 成 的 V 和 紧 接 在 V 后 面 的 一 
个 由 单词 * 诗 稿 ” 组 成 的 NP 











一 我 发 现 S 应 该 包含 下 列 成 分 : 


由 单词 “ 林 伐 玉 ” 组 成 的 NP 以 及 包含 一 个 由 蛙 词 “ 焚 ” 组 成 的 V 和 紧 接 


在 V 后 面 的 一 个 由 单词 “ 许 稿 ? 组 成 的 NP 前 后 连接 组 合 而 成 的 VP 
一 是 否 已 经 到 达 了 人 句子 的 结尾 ? 
一 是 的 
一 训 析 成 功 了 


图 4.15 是 “ 林 伐 玉 焚 诗 稿 ? 自 顶 向 下 剖析 的 搜索 树 。 在 自 顶 向 下 的 识 
别 过 程 中 ， 某 一 时 刻 的 情况 可 用 两 个 序列 来 描述 : — FP B BITE by 
组 成 ， 一 个 序列 由 剩 下 的 单词 组 成 ， 两 个 序列 之 间 用 冒号 C: 〉 隔 开 。 
例如 , “叹息 NP: 焚 诗 稿 ” 说 明 ， 自 顶 向 下 剖析 程序 试图 找 出 后 面 跟着 
NP 的 单词 “ 叹 妃 >”， 而 这 时 剩 下 的 单词 序列 是 “ 焚 诗 稿 ”。 

S. KE 45 FP 


NP VP; 林黛玉 BE Wu 
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林黛玉 VP: RE SE 诗 稿 诗 稿 VP: RE 35 诗 稿 
VP: 焚 诗 稿 
V: M V NPDÓE Wf 
KA: nd 25.425 FM ME: 焚 诗 稿 46 NP. 26. Dp 
1 TS NP: 诗 稿 
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图 4.15 自 顶 疝 下 剖析 的 搜索 树 





在 这 搜索 树 中 ， 如 果 我 们 按照 如 下 的 顺序 搜索 ， 便 可 得 到 成 功 : 


Ar H ËR 剩 下 的 单词 序列 
S : 林黛玉 BE 诗 稿 
NP VP : MEC 55 BW 
林黛玉 VP : 林黛玉 BE 诗 稿 
VP : BE 诗 稿 
V NP : BE 诗 稿 
禁 NP : BE 诗 稿 
NP : WES 
WES : TES 


| 剖析 成 功 !] 

自 项 向 下 弃 析 程序 的 写法 与 自 确 辐 上 训 析 程序 的 写法 十 分 相似 。 自 
ne 了 解 在 任何 特定 的 时 刻 成 功 地 找 俘 到 的 东西 是 什 
， 而 目 顶 问 下 剂 析 程 序 则 须要 记 住 它 试图 要 找 碍 的 东西 是 什么 ， 这 就 
ES E m EL 
情况 可 用 目标 序列 及 单词 序列 来 描述 。 在 LISP 语 言 中 ， 目 标 序 列 用 表 
dist) 来 表示 ， 单 词 序列 用 原子 Gatom) 来 表示 。 当 我 们 调用 自 顶 向 
下 剖析 程序 时 ， 目 标 序 列 的 表 就 是 (〈S) ) ， 它 指出 这 个 齐 析 程序 所 
要 找 奉 的 表 就 是 这 个 〈《S) ， 而 单词 序列 的 原子 所 组 成 的 表 Aist of 
atoms) 就 是 输入 的 句子 ， 这 个 句子 中 的 单词 要 满足 目标 的 要 求 。 当 目 
































标 序列 与 单词 序列 两 者 都 变 空 时 ， 自 顶 向 下 神 析 就 获得 成 功 ， 输 入 句子 
就 得 到 识别 。 目 顶岗 下 剖析 过 程 可 用 LISP 语 言 表示 如 下 : 


目标 序列 单词 序列 

((S)) ( PKS 36 诗 稿 ) 
(( NPX VP) ) (HEE A6 诗 稿 ) 
( 林黛玉 (VP ) ) ( 林黛玉 HE 诗 稿 ) 
( ( VP)) ( dE 诗 稿 ) 

(( VX NP)) ( 45 诗 稿 ) 

( 禁 ( NP ) ) CHE 诗 稿 ) 

( ( NP)) (FFR ) 

( 诗 稿 ) ( 诗 稿 ) 

( 3 a 


在 剖析 过 程 中 ， 如 宋 目 标 序 列 的 表 中 的 第 一 项 是 范畴 符号 ， 那 么 ， 
我 们 就 用 语法 中 与 这 个 范畴 符号 匹配 的 规则 的 右 部 RHS 来 丛 换 这 个 范畴 
fiu: 如 宁 目 标 序 列 的 表 中 的 第 一 项 是 单词 ， 而 这 个 单词 与 单词 序列 中 
的 第 一 个 单词 相同 ， 那 么 ， 就 把 这 两 个 单词 都 抹 掉 ， 并 继续 进行 查找 ， 
直到 目标 序列 的 表 与 单词 序列 两 者 都 变 空 为 止 。 














TER Iie) Re, Bee oe HAC A Cleft recursion) 的 问 





如 果 在 短语 结构 语法 的 重 写 规 则 中 ， 有 如 下 的 规则 : 
VP = VP NP 


由 于 规则 右 部 RHS 的 第 一 项 与 规则 左 部 LHS 完 全 相同 ， 都 是 NP， 当 用 


RHS 来 重 写 时 ， 就 必然 要 多 次 地 用 RHS 中 的 VP NP 来 重 写 LHS 中 的 VP， 
这 样 ， 奉 换 之 后 得 到 的 符号 串 中 总 是 有 VP， 总 是 可 以 用 RHS 中 的 VP NP 
来 蔡 换 VP， 这 样 ， 就 形成 了 左 递归 。 如 果 在 语法 中 有 左 递归 ， 那 么 ， 
在 与 其 相应 的 自 左 至 右 、 自 项 向 下 的 剖析 程序 中 ， 就 会 出 现 无 穷 循环 的 
恶果 ， 从 而 使 剖析 引入 歧途 。 这 时 ， 齐 析 过 程 中 将 会 出 现 如 下 的 循环 问 
XE. 























一 现在 我 要 找 查 VP 
一 VP 由 什么 组 成 ? 
一 VP 可 由 一 个 VP 后 面 跟着 一 个 NP 组 成 
一 现在 我 要 找 否 VP 
一 VP 由 什么 组 成 ? 
一 VP 可 由 一 个 VP 后 面 跟着 一 个 NP 组 成 
一 现在 我 要 找 僵 VP 
一 VP 由 什么 组 成 ? 
一 VP 可 由 一 个 VP 后 面 跟着 一 个 NP 组 成 


ee 


为 了 避免 出 现 这 样 的 恶性 循环 ， 在 短语 结构 语法 的 规则 中 ， 每 当 出 
现 左 递归 规则 的 时 候 ， 惑 要 用 等 价 的 非 递 归 的 规则 来 代 符 它 。 这 是 我 们 
在 编写 目 顶 同 下 的 谢 析 程序 时 应 该 特别 注意 的 问题 。 





(3) 深度 优先 剖析 与 广度 优先 剖析 (depth-first parsing and breath- 


first parsing ) 


前 面 所 讲 的 各 种 剖析 都 是 深度 优先 剂 析 〈depth-first parsing) 。 在 
搜索 过 程 中 的 每 一 步 ， 我 们 都 要 作出 猜测 ， 而 且 ， 只 有 在 前 面 一 步 的 猜 








测 得 到 结论 以 后 ， 才 有 可 能 探 宫 下 一 步 猜测 ， 也 就 是 说 ， 狂 测 要 一 步 一 
步 地 来 进行 ， 在 同一 时 刻 ， 不 可 能 一 起 探 完 在 干 个 猜测 。 例 如 ， 在 对 句 
子 “ 林 饮 玉 英 诗 稿 ” 进 行 自 确 和 同上 天 析 时 ， 当 我 们 搜索 到 动词 “区 ”时 ， 我 
们 首先 猜测 这 个 动词 “ 焚 ” 十 不 是 文 配 着 它 的 条 个 动词 词组 VP 中 的 唯一 内 
容 ， 只 有 妆 我 们 经 过 探究 而 判断 这 个 猜测 是 不 正确 的 之 后 ， 才 有 可 能 狂 
测 这 个 动词 “ 英 * 的 后 面 是 不 是 有 一 个 NP， 并 且 “ 焚 ”与 这 个 NP 一 起 组 成 

一 个 VP。 在 深度 优先 剖析 中 ， 这 两 个 猜测 是 不 能 同时 地 进行 的 ， 而 只 

能 移 探 完 一 个 猜测 ， 再 探 完 咏 一 个 猜测 。 可 见 ， 深 度 优 先 训 析 是 一 种 典 
型 的 顺序 式 剖析 。 

















广度 优先 剖析 Cbreath-first parsing) 与 深度 优先 剖析 不 同 ， 采 用 广 
度 优先 剖析 时 ， 在 剖析 过 程 中 的 同一 时 刻 ， 可 以 同时 保持 奉 干 个 猜测 ， 
一 步 判 断 可 以 同时 涉及 到 行 干 个 猜测 。 在 理想 的 情况 下 ， 尽 管 随 着 时 间 
的 推移 ， 有 茶 些 猜测 失败 了 ， 但 广度 优先 的 搜索 还 能 保持 妨 外 一 些 猜 
测 ， 并 且 把 猜测 的 判断 减 缩 到 最 小 的 范围 内 来 进行 。 








下 面 ， 我 们 资 明 如 何 用 广度 优先 剖 析 技 术 来 训 析 “ 林 焦 玉 菊 许 稿 "这 
个 句子 。 我 们 在 范畴 符 写 后 面 加 字母 “a* 或 “6” 只 是 为 了 引用 方便 ， 并 不 
表示 新 的 范畴 。 


剖析 步骤 如 下 : 
一 把 范畴 符 吕 指 派 给 句子 中 的 每 一 个 词汇 项 目 。 
WEE: NPa 
5 V 


诗 稿 : NPb 


一 检查 每 一 个 范畴 符号 ， 看 一 看 它们 能 否 单独 充当 短语 结构 语法 中 重 写 
规则 的 右 部 RHS， 从 而 被 重 写 规则 的 左 部 LHS 的 范畴 符号 所 支配 。 








NPa: 不 能 
V: 可 被 VPa 支 配 
NPb: 不 能 





一 检查 两 两 相 邻 的 范畴 符号 ， 看 一 看 它们 能 否 充当 短语 结构 语法 中 重 写 
规则 的 右 部 RHS， 从 而 被 重 写 规则 的 左 部 LHS 的 范畴 符号 所 文 配 。 





NPaV: 不 能 

NPa VPa 可 被 Sa 支配 
V NPb: 可 被 VPb 支 配 
VPa NPb: 不 能 


一 检查 相 邻 的 三 个 范畴 符号 构成 的 三 元 组 ， 看 一 看 它们 能 否 充当 短语 结 
构 语 法 中 重 写 规则 的 右 部 RHS， 从 而 被 重 写 规则 的 左 部 LHS 的 范畴 符号 
所 文 配 。 





NPa V NPb: 不 能 
VPa VPa NPb: 不 能 
一 检查 在 上 述 过 程 中 ， 从 短语 结构 语法 的 重 写 规则 左 部 而 来 的 那些 新 的 


范畴 符号 ， 看 一 看 它们 能 个 充当 短语 结构 语法 重 写 规 则 的 右 部 RHS， 从 
而 又 被 重 写 规则 左 部 LHS 的 其 它 范 畴 符号 所 文 配 。 








VPa: 不 能 
VPb: 不 能 
Sa: 不 能 


一 检查 由 范畴 符号 构成 的 新 的 相 邻 俩 对 ， 看 一 看 它们 能 否 充 当 短 语 结构 
语法 重 写 规则 的 右 部 RHS， 从 而 被 重 写 规则 的 左 部 LHS 所 支配 。 





Sa NPa: 不 能 


NPa VPb: 可 被 Sb 文 配 [APTUS ] 





我 们 在 设计 广度 优先 的 搜索 算法 时 ， 很 有 必要 研究 一 种 机 制 ， 使 得 
计算 机 把 它 的 时 间 均 匀 地 分 配给 所 搜索 范围 的 不 同 部 分 。 在 简单 的 广度 
优先 误 析 程 序 中 ， 我 们 可 以 采用 把 各 种 不 同 的 状态 集中 在 一 个 表 中 的 办 
法 来 达到 这 个 目的 。 在 自 底 同 上 的 三 度 优先 训 析 程序 中 ， 我 们 可 以 把 所 
须要 了 解 的 情况 ， 用 单词 和 范畴 符号 组 成 的 表 加 以 总 结 ， 使 其 清晰 地 表 


Bon fairs 


左 角 剖析 法 〈left-corner parsing method) 是 一 种 把 自 顶 向 下 剖析 法 
和 上 自 底 向 上 剖析 法 结合 起 来 的 剖析 法 。 所 谓 “ 左 角 ? 是 指 表示 句子 句法 结 
构 的 树 形 图 的 任何 子 树 〈subtree) 中 左下 角 的 那个 符号 。 











Det N VP PP 
the boy V NP Prep NP 
| e SR 
hits Det j with T ji 
the dog a rod 





图 4.16 “the boy hits the dog with a rod” 的 树 形 图 


例如 ， 在 表示 人 句子 “the boy hits the dog with a rod” 的 树 形 图 中 ，the 
是 Det 的 左 角 ，Det 是 NP 的 左 角 ，NP 是 $S 的 左 角 ，hits 是 V 的 左 角 ，V 是 VP 
的 左 角 ，with 是 Prep 的 左 角 ，Prep 是 PP 的 左 角 。 


从 重 写 规则 的 角度 来 看 , “ 左 角 ?是 重 写 规则 右边 部 分 的 第 一 个 符 
写 。 如 果 重 写 规则 的 形式 是 A -BC， 则 B 束 是 左 角 。 


重 写 规则 A -BC 可 以 表示 为 如 下 的 树 形 图 (图 4.17) : 


a c h a 


B L 


图 4.17 BS MUU Beas 





CRRA BUR Pairk, Sorte iA eA>BSC, Eja 
; 如 果 采 用 目 撒 同上 剖析 法 ， 其 分 析 过 程 应 该 是 BC-~A， 是 先 下 后 


; 如 果 采 用 左 角 放 析 法 ， 其 分 析 过 程 就 应 该 是 B~A -~C， 是 有 下 有 
。 把 数码 记 在 相应 的 结 点 上 ， 这 三 种 剖析 法 的 分 析 顺 序 如 图 4.18 所 





目 顶 回 下 分 析 法 
A(1) 


BO) C(3) 


A Jeeta] ES ars 
A(3) 


B(1) C(2) 


左 角 分 析 法 
A(2) 


B(1) C(3) 














图 4.18 ”三 种 剖析 方法 比较 








左 角 剂 析 法 的 分 析 从 左 角 B 开 始 ， 然 后 根据 重 写 规则 A~BC， 目 下 
而 上 地 推导 出 A， 最 后 再 自 项 向 下 地 推导 出 C。 





如 果 我 们 有 如 下 的 上 下 文 无 关 语法 : 


G -i(VN,VT,S,Pj 
VN = | S, NP, VP, Det, N, V, Prep | 
VT = | the, boy, rod, dog, hits, with, a | 


5 m 
S — NP VP ( a) 
NP — Det N ( b) 
VP — V NP Ce) 
VP — VP PP (d) 
PP — Prep NP (e) 
Det | the | (£) 
Det | a | ( g) 
N — i boy | (h) 
N — | dog | (i) 
N— i rod i (j) 
V > | hits | (k) 
Prep — | with | (1) 


根据 这 个 语法 的 规则 ， 我 们 用 左 角 剖析 法 来 分 析 句 子 “the boy hits 
the dog with a rod", 


(1) 首先 从 句 首 的 the 开 始 ， 根 据 语 法 的 规则 《〈f) ， 从 规则 CD 


的 左 角 the， 作 出 Det (414.19) 。 


Det 


( f) 
the boy... 


图 4.19 EAKL 





(2) 因为 规则 Cb) 的 左 角 为 Det， 所 以 ， 从 Det 出 有 发， 选择 语法 
(bo ， 并 由 此 预测 Det 后 面 的 N《〈 图 4.20) 。 


Det N?( 预 测 ) 
the N 
| om 
boy ... 


图 4.20 Jrffüiypri2 





(3) 根据 规则 (h〉， 从 boy 作 出 N (图 4.21) 。 


Det N?( 预 测 ) 
the N 
| om 
boy, 


图 4.21 ÆA HE3 








(4) 由 于 boy 的 父 结 点 Cfather node) 恰好 是 N， 可 见 我 们 对 于 N 的 
预测 是 正确 的 ， 于 是 作出 子 树 NP《〈 图 4.22) 。 


图 4.22 Æ HHA 





(5) NP 是 规则 (a) 的 左 角 ， 由 NP 选 择 规则 Ca» ， 并 预测 
VP (图 4.23) 。 


A um 


NP VP? HG) 


hits... 


图 4.23 ” 左 角 剖析 法 5 





(6) 根据 规则 Ck) ， 由 hits 作 出 V (图 4.24) 。 


a 


NP VP?( 预 测 ) 


V 


| 
Its 


(7) 由 于 V 是 规则 (c) 的 左 角 ， 所 以 选择 规则 Co) ， 并 预测 
NP (4.25) 。 


图 4.24 Æ AHTS 





NP VP?( 预 测 ) 


a 


VP 
> 
V NP? (PRU) 


the dog... 
K425 左 角 剖析 法 7 





(8) 从 the ”dog 作 成 NP, 对 于 NP 的 预测 得 到 证 实 ， 由 于 NP 得 到 证 
实 ， 因 此 可 继续 证 实 对 于 VP 的 预测 (图 4.26) 。 


ue ON. 


NP VP? HEBR) 


图 4.26 左 角 剖析 法 8 








(9) 由 于 VP 还 可 以 是 规则 Cd) 的 左 角 ， 而 且 ，the dog 之 后 还 
有 with 等 单词 ， 说 明 还 不 能 过 早 地 归 约 ， 需 要 进行 回调 ， 以 VP 为 规则 
Cd) 的 左 角 ， 选 择 规则 Cao 来 预测 PP〈 图 4.27) 。 


NP VP?( 预 测 ) 


VP 
P uM R 
VP PP?( 预 测 |) 
P ln 
V NP 
with a rod... 


图 4.27 左 角 剖析 法 9 





(100 对 于 VP 的 预测 得 到 证 实 ， 于 是 ， 完 成 句子 $ (4.28) 。 














图 4.28 左 角 痢 析 法 10 











上 述 剂 析 法 中 郡 使 用 了 回调 。 当 输入 的 符 吕 串 属 于 这 种 语法 所 描述 
的 语言 时 ， 加 入 回溯 机 制 能 够 保证 输入 符 写 串 被 接受 。 但 是 ， 当 输入 的 
符号 串 不 属于 这 种 语法 所 描述 的 语言 时 ， 通 过 多 次 回溯 而 没有 新 的 选择 
可 以 回 滴 ， 输 入 符号 串 就 将 被 拒绝 。 系 统 回 溯 能 够 保证 算法 的 正确 性 ， 
但 回调 同时 也 夹 痢 大 量 的 重复 和 多 余 的 计算 。 








美国 计算 语言 学 家 马尔 库 斯 (M. Marcus) 于 1980 年 提出 用 人 工 的 
方法 对 归 约 的 条 件 加 以 控制 ， 从 而 避免 了 回溯 。 这 就 是 “Marcus 确 定性 
分 析 算 法 ”。 马 尔 库 斯 的 确定 性 算法 由 两 部 分 组 成 : 模式 部 分 和 行为 部 
分 。 模 式 部 分 说 明 栈 及 缓冲 区 的 内 容 在 什么 样 的 情况 下 ,分析 算法 可 以 
执行 行为 部 分 所 表明 的 操作 。 马 尔 库 斯 引入 的 缓冲 区 是 输入 概念 的 推 
广 ， 它 从 左 到 右 按 顺 序 存放 一 些 已 经 建成 的 句子 成 分 ， 人 允许 查看 的 缓冲 
区 的 内 容 是 有 限 的 ， 这 就 避免 了 规则 的 复杂 化 。 在 行为 部 分 允许 的 操 
作 ， 有 的 类 似 于 归 约 、 移 进 ， 有 的 将 栈 顶 元 素 移 到 缓冲 区 ， 有 的 将 缓冲 
区 的 成 分 移出 ， 挂 到 栈 顶 所 放 成 分 的 结 点 之 下 ， 等 等 。 








美国 学 者 伊 尔 利 CJ. Earley) 于 1968 年 在 他 的 博士 论文 中 提出 了 
Earley 算 法 (Earley algorithm) 。 这 种 算法 在 左 角 齐 析 法 的 基础 上 ， 把 
自 顶 同 下 剖析 法 和 目 底 同上 剖析 法 结合 起 来 ， 在 分 析 过 程 中 交 蔡 地 使 用 
这 两 种 齐 析 法 。 首 先 自 顶 癌 下 预测 某 个 语言 成 分 的 起 点 ， 找 出 起 点 之 
后 ， 再 目 底 向 上 长 成 一 棵 子 树 。Earley 算 法 提出 了 “点 规则 ?>， 这 种 “点 规 
则 ”采用 在 规则 中 加 点 的 方式 来 系统 地 表示 已 经 建成 的 结构 部 分 和 和 有待 
进一步 分 析 的 结构 部 分 ， 从 而 步步为营 地 从 左 到 右 对 句子 进行 分 析 ， 提 
高 了 分 析 的 效率 。 马 丁 : 凯 依 的 线 图 分 析 法 ， 就 是 在 Earley 算 法 的 基础 上 
提出 来 的 。 由 此 我 们 可 以 看 出 从 事 上 自然 语言 处 理 的 学 者 们 在 研究 短语 续 
构 语法 的 分 析 算 法 方面 所 做 的 艰 兰 日 绝 的 努力 。 








第 四 节 CKY 算 法 


CKY 算 法 是 Cocke-Kasami-Younger 算 法 的 缩写 。 这 是 一 种 并 行 的 句 
法 齐 析 算法 。CKY 算 法 是 以 乔 姆 斯 基 范 式 〈Chomsky normal form) 为 
描述 对 象 的 句法 剖析 算法 。 乔 姆 斯 基 范 式 的 重 写 规 则 形式 为 


A 5 BC 


其 中 ，A、B、C 都 是 非 终极 符号 。 弄 姆 斯 基 范 式 把 单个 的 非 终极 符号 
写 为 两 个 非 终极 符号 B 和 C， 上 反映 了 自然 语言 的 二 分 特性 ， 在 语言 m 
处 理 中 便于 用 二 又 树 来 表示 目 然 语言 的 数据 结构 ， 更 加 适合 于 描述 目 然 


语言 。 





显而易见 ， 乔 姆 斯 基 范 式 的 重 写 规则 是 上 下 文 无 关 的 短语 结构 语法 
的 重 写 规则 A > o@ 中 ， 当 o=BC 时 的 一 种 特殊 情况 。 


由 于 任何 的 乔 姆 斯 基 范 式 与 上 下 文 无 关 的 短语 结构 语法 都 是 等 价 
的 ， 因 此 ， 这 样 的 限制 并 不 失 一 般 性 。 


对 于 英语 句子 “the boy hits a dog”( 那 个 男孩 儿 打 狗 ) ， 使 用 CKY 分 
析 法 ， 我 们 可 以 得 到 如 下 的 表 (图 4.29): 











the boy hits a dog 
图 4.29 ”CKY 算 法 中 的 表 








在 这 个 表 中 ， 行 方 辐 横 辐 〉 的 数字 表示 单词 在 句子 中 的 位 置 ， 列 方 癌 
( 纵 癌 〉 的 数字 表示 该 语言 成 分 所 包含 的 单词 数 。 语 言 成 分 都 效 在 框 子 
(box) 内 ， 我 们 用 bi 来 表示 处 于 第 i 列 第 j 行 的 框 子 的 位 置 。 这 样 ， 
一 个 语言 成 分 的 位 置 就 可 以 确定 下 来 。 例 如 ， 


Det€ b, , 表示 Det 处 于 第 1 列 第 1 行 ， 
NEb , 表示 N 处 于 第 2 列 第 1 行 ， 
VEbs1 表示 V 处 于 第 3 列 第 1 行 ， 
Det Eb, , 表示 Det 处 于 第 4 列 第 1 行 ， 
N€ bs , 表示 N 处 于 第 5 列 第 1 行 


这 样 一 来 ， 处 于 第 1 列 第 2 行 的 NP 的 位 置 可 用 bl , Xx (NPEb ， 
) ， 这 种 记 法 说 明 ， 这 个 NP 处 于 句 首 ， 包 含 2 个 单词 (the 和 boy) ， 也 
就 是 说 ， 这 个 NP 是 由 Det 和 N 组 成 的 ;处 于 第 4 列 第 2 行 的 NP 的 位 置 可 用 
b42 表示 (NPEbs,)， 这 种 记 法 说 明 ， 这 个 NP 处 于 第 4 个 词 的 位 置 ， 包 含 


2 个 单词 Ca 和 dog) ， 也 束 是 说 ， 这 个 NP 是 由 Det 和 N 组 成 的 ， 处 于 第 3 

列 第 3 行 的 VP 的 位 置 可 用 bs 4 表示 (VPEbs 。) ， 这 种 记 法 说 明 ， 这 个 
VP 处 于 第 3 个 词 的 位 置 ， 包 含 3 个 单词 (hits, a 和 dog) ， 也 就 是 说 ， 这 个 
VP 是 由 V (包含 1 个 词 ， 和 NP 包含 2 个 词 ) 组 成 的 ， 处 于 第 1 列 第 5 行 

的 S 的 位 置 可 用 bi 。 表 示 〈SEbi 。 ) ， 这 种 记 法 说 明 ， 这 个 S$ 处 于 句 首 ， 

包含 5 个 单词 (the, boy, hits, aflldog) ， 也 就 是 说 ， 这 个 S 是 由 NP〈 和 包含 
2 个 单词 ) 和 VP (包含 3 个 单词 ) 组 成 的 。 这 些 框 子 里 的 标记 ， 明 确 地 

说 明了 这 个 句子 中 的 句法 结构 关系 ， 因 此 ， 如 果 我 们 能 够 通过 有 限 步 又 
造 出 这 样 的 表 ， 就 等 于 完成 了 句子 的 句法 结构 分 析 。 


由 于 语法 规则 都 用 乔 姆 斯 基 范 式 表 示 ， 因 此 ， 在 语法 规则 A | BC 
中 ， 对 于 茶 个 k(1<k<j) 来 说 ， 如 果 bi k 中 包含 B，biyy jx PAC, Mb; ; 
中 必定 包含 A。 也 就 是 说 ， 如 果 从 输入 句子 中 的 第 i 个 单词 开始 ， 造 成 了 
表示 由 k 个 单词 组 成 的 成 分 B 的 子 树 〈 这 时 ，B 的 长 度 为 k， 其 首 词 标号 
为 第 i 列 ， 末 词 标 号 第 i+k-1 列 例如， 如果 B 的 长 度 为 4， 如 首 词 标号 为 
3， 则 末 词 标号 为 itk-1=3+4-1=6， 即 这 4 个 词 的 标号 分 别 为 3，4，5， 
6) ， 从 第 itk 个 单词 开始 ， 造 成 了 表示 由 j-k 个 单词 组 成 的 成 分 C 的 子 树 
(这 时 ，C 的 长 度 为 j-k， 其 首 词 标号 为 第 tk 列 ， 末 词 标号 为 第 i+tj-1 列 ， 
例如 ， 如 果 A 的 长 度 j=6，C 的 长 度 为 j-k=6-4=2， 则 其 首 词 标号 为 
itk=3+4=7， 末 词 标 号 为 itj-1=3+6-1=8) ， 那 么 ， 就 可 以 作出 如 下 的 表 
示人 A 的 树 形 图 (图 4.30) : 





B C 
il i itk—1 itk i-1 iH 
长 度 为 k 长 度 为 /一 k 
长 度 为 j 





图 4.30 ”CKY 算 法 中 的 标号 


例如 ， 在 上 表 的 b; ; 中 包含 NP，bj | 中 包含 Det，b, ; 中 包含 N， 这 反映 
了 语法 规则 NP > Det N 的 情况 。 这 时 ，k=1, i=1, j=2。 

CKY 算 法 就 是 顺 次 构造 上 述 表 的 算法 ， 当 输入 句子 的 长 度 为 n 时 ， 
CKY 算 法 可 分 为 如 下 两 步 。 

第 一 步 : 从 二 1 开始 ， 对 于 长 度 为 n 的 输入 句子 中 的 每 一 个 单词 Wi 
， 显 然 都 有 重 写 规则 A -,W; ， 因 此 ， 顺 次 给 每 一 个 单词 Wi 相应 的 非 终 
极 符 号 A 记 入 框 子 b; , 中 。 在 我 们 的 例句 “the boy hits a dog” 中 ， 根 据 相 
应 的 重 写 规则 ， 顺 次 把 Det 记 入 bi; , 中 ， 把 N 记 入 b, , 中 ,把 Vi& 入 bs | 
中 ， 把 Deti 记 入 bs 1 中 ， 把 N 记 入 bs 1 中 。 








第 一 步 相当 于 确定 输入 句子 中 各 个 单词 所 属 的 词类 ， 如 采 一 个 单词 
属于 奉 干 个 词类 ， 可 以 把 它 所 属 的 词类 都 记 入 表 中 。 





第 二 步 : 对 于 1<h<j 以 及 所 有 的 i， 造 出 pb hn ， 这 时 ， 包 含 b; ; 的 非 终 
极 符号 的 集合 定义 如 下 : 
bi | = {A| 对 于 1<k<j， B 包 含 在 b; h 中 ， C 包 含 在 b;,y j-k 中 ， jf 
且 ， 存 在 语法 规则 A 5 BC}. 








第 二 步 相 当 于 构造 句子 的 句法 结构 。 根 据 语 法 的 重 写 规 则 ， 从 人 句 首 


也 就 是 说 ，SEbls ， 那 么 ， 就 说 明 输 入 句子 是 可 以 接受 的 。 


例如 ， 根 据 规则 NP Det N 以 及 detEb; , FINEb, , ， 可 知 此 时 
i=1，k=1，j=2， 因 此 ，NP 的 框 子 的 编号 应 为 bl ，; 根据 规则 NP >Det N 
以 及 DetEb4 1 和 NEbs1i ， 可 知 此 时 i=4，k=1，j=2， 因 此 ， 这 个 NP 的 框 
子 的 编号 应 为 bu， ; 根据 规则 VP V NP 以 及 VEbs| 和 NPEb, ，, 可 知 此 
时 i=3，k=1，j=3， 因 此 ，VP 的 框 子 的 编号 应 为 bb 4 ; 根据 规则 S -~ NP 
VP 以 及 NPEbi 9 FIVPEb3  ， 可 知 此 时 i=1，k=2，j=5， 因 此 ，S 的 框 子 
的 编号 bs 1 。 由 于 句子 长 度 n=5， 因 此 ， 有 SEb,1 ， 所 以 输入 句子 被 接 
受 ， 分 析 成 功 。 


下 面 我 们 使 用 CKY 算 法 来 分 析 更 加 复杂 的 句子 。 





如 果 上 下 文 无 关 语 法 具有 如 下 的 规则 : 


S 5 NP VP 
NP 5 PrN 
NP > DET N 


NP = N WH VP 

NP > DET N WH VP 
VP > V 

VP — V NP 

VP > V that S 


我 们 用 这 个 语法 来 分 析 句 子 “the table that lacks a leg hits Jack". 
e 把 重 写 规则 转换 为 乔 姆 斯 基 范 式 : 

S 5 NP VP 
NP > PIN 这 个 规则 不 是 乔 姆 斯 基 范 式 ， 因 此 转换 为 : 


NP — Jack | John | Maria 
NP = DET N 


NP = N WH VP 这 个 规则 不 是 乔 姆 斯 基 范 式 ， 因 此 转换 为 : 


NP > NCL 
CL > WH VP 


NP > DET N WHVP 这 个 规则 不 是 乔 姆 斯 基 范 式 ， 因 此 转换 为 : 


NP = NP CL 
NP > DET N 
CL 5 WH VP 


这 里 CE 是 一 个 WH 从 名 CWH clause) ， 它 由 that 和 VP 组 成 。 


VP = V 这 个 规则 不 是 乔 姆 斯 基 范 式 ， 因 此 转换 为 : 


VP — cough | walk |... 
VP = V NP 


VP > V that S A ETP, ACE HN: 


VP = V TH 
TH 5 WHS 


这 里 TH 是 一 个 that 从 多， 它 有 that 和 S 组 成 。 

e 计算 非 终极 符号 bi 的 列 号 和 行 号 : 

一 一 按照 句子 中 的 词 序 排列 表示 词类 (POS) 的 非 终极 符号 bij 并 计 
算 它们 的 列 号 和 行 号 : 


“The table that lacks a leg hits Jack" 
DET N WH Y DET N V NP 
b, b, b, b, bs, by b, b, 
一 一 计算 表示 短语 的 非 终 极 符号 bi 的 列 号 和 行 号 ， 得 到 如 下 的 方 杠 
和 表 〈 图 4.31) : 








S, (SNP VP) 








I 
NP3( NP-NP CL 
b; 














NPI (NP—DET N 
































图 4.31 句子 的 方 框 和 表 1 





其 中 ， 各 个 方 框 中 的 bi 计算 详情 如 下 : 


bi (NP1): i=1, j=1+1=2 
bi (NP2): i=5, j=1+1=2 
bi (VP1): i=7, j=1+1=2 
bi (VP2): i-4, j=1+2=3 
bi (CL): i-3, j=1+3=4 
bi (NP3): i=1, j=2+4=6 
bi (S): i=l, j-2*6-8 


这 个 句子 的 长 度 为 8， 我 们 得 到 的 S 的 方 框 中 的 行 号 也 为 8， 因 此 名 


子 分 析 成 功 。 





我 们 使 用 CKY 算 法 构造 出 上 图 的 表 中 的 各 个 结 反 可 以 系 连 起 来 形成 
DETI (pyramid) ， 这 个 金字 塔 也 就 是 一 个 树 形 图 ， 它 可 以 表示 
句子 的 结构 。 


现在 ， 我 们 使 用 CKY 算 法 来 分 析 句 子 “book that flight". 

上 下 文 无 关 语 法 的 规则 与 前 面 使 用 过 的 规则 相同 ， 它 们 是 : 
1.S > VP 

2. VP = Verb NP 

3. NP > Det Nominal 


4. Nominal — Noun 


由 于 规则 -1 的 右手 边 只 包含 一 个 单独 的 非 终 极 符号 VP， 这 不 是 乔 姆 
斯 基 范 式 ， 但 是 ， 规 则 -2 是 乔 姆 斯 基 范 式 ， 因 此 ， 我 们 把 规则 -1 和 规 
则 -2 结合 起 来 ， 形 成 如 下 的 符合 乔 姆 斯 基 范 式 要 求 的 规则 : 





S 5 Verb NP 


规则 -4 的 右手 边 也 只 包含 一 个 单独 的 非 终 极 符号 ， 也 不 是 乔 姆 斯 基 
范式 ， 但 是 ， 规 则 -3 是 乔 姆 斯 基 范 式 ， 因 此 ， 我 们 把 规则 -4 和 规则 -3 纺 
合 起 来 ， 形 成 如 下 的 符合 乔 姆 斯 基 范 式 要 求 的 规则 : 





NP — Det Noun 


现在 ， 这 个 上 下 文 无 关 语 法 的 规则 如 下 : 


S Verb NP 
NP — Det Noun 





这 些 规则 都 符合 乔 姆 斯 基 范 式 的 要 求 了 。 根 据 这 样 的 规则 使 用 CKY 
算法 分 析 上 述 句 子 的 结果 如 下 (图 4.32) : 


bis 

mano CNN 
NP ( NP—»Det Noun) 
b» 





Book that flight 


图 4.32 ”句子 的 方 框 和 表 2 

















其 中 ， 各 个 方 框 中 的 bi; 计算 详情 如 下 : 


b; (NP): i22, j=1+1=2 
bi (S): 1-1, j=1+2=3 








HCKY RIA E UII] Az 6 E hi ce eons BP A. AA 
出 ，CKY 算 法 是 一 种 简单 而 有 效 的 算法 。 


CKY 算 法 由 小 型 分 析 树 开始 逐渐 扩大 ， 同 样 的 分 析 树 绝 不 重复 运 
算 ， 不 需要 进行 回调 ， 规 则 都 采用 乔 姆 斯 基 范 式 ， 这 是 它 的 优越 之 处 。 











短语 结构 语法 具有 结构 清晰 、 简 洁 明 确 、 易 于 操作 等 优点 ， 给 目 然 
语言 的 计算 机 处 理 带 来 了 许多 方便 。 因 此 ， 上 述 基 于 短语 结构 语法 的 自 
动 句法 分 析 方 法 ， 在 自然 语言 处 理 中 得 到 广泛 的 应 用 ， 目 前 仍然 有 着 很 
强 的 生命 力 。 
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自然 语言 处 理 的 绝 大 多 数 或 者 全 部 的 研究 都 可 以 看 作 是 在 其 中 的 某 
个 层面 上 消解 歧义 〈disambiguation) 。 这 些 歧义 包括 词汇 歧义 、 结 构 歧 
义 。 本 章 讨 论 结构 歧义 (structural ambiguity) 。 


在 采用 第 三 革 中 所 述 的 训 析 技术 来 处 理 自 然 语 言 的 时 候 ， 常 常会 受 
到 结构 皮 义 的 干扰 。 





如 琳 我 们 想 把 条 个 意思 输入 计算 机 ， 而 存在 者 右 干 个 不 同 的 结构 来 
表示 这 个 意思 ， 那 么 ， 我 们 就 说 这 样 的 输入 是 有 结构 皮 义 的 。 


我 们 来 考虑 口语 中 的 一 个 句子 I made her duck。 这 个 句子 可 能 有 5 个 
不 同 的 意思 (或许 更 多 ) ， 以 下 是 歧义 的 若干 实例 : 


(1.1) I cooked waterfowl for her (4 Z5 ith zz ERI 
T) 


(1.2) I cooked waterfowl belonging to her (RZ 1E 
属于 她 的 鸭子 ) 


(1.3) I created the plaster (?) duck she owns (我 
Fab Ae Lv] TETET GE 


(1.4) I caused her to quickly lower her head or 


body《〈 我 使 她 很 快 地 把 她 的 头 或 者 号 体 放 低 一 些 ) 


(1.5) I waved my magic wand and turned her into 
undifferentiated waterfowl 〈 我 挥动 魔杖 把 她 变 成 了 
一 只 人 们 一 点 儿 也 看 不 出 破绽 的 鸭子 ) 


这 些 不 同 的 意思 都 是 由 于 歧义 引起 的 。 首 先 ，duck 和 her 的 词类 在 
形态 或 句法 上 是 有 上 攻 义 的 。duck 可 以 是 动词 或 名 词 ， 而 her 可 以 是 表示 
给 予 格 的 代词 或 表示 所 属 格 的 代词 。 其 次 ，make 在 语义 上 是 有 歧义 的 ， 
它 的 意思 可 以 是 create (创造 ) ， 也 可 以 是 cook( 襄 饪 ) 。 最 后 ， 动 词 
make 还 可 以 有 不 同 的 句法 卜 义 。make 可 以 作 及 物 动词 ， 带 直接 宾语 
(1.1) ; make 也 可 以 作 双 及 物 动词 ， 带 两 个 宾语 (1.5， ， 表 示 把 第 一 
宾语 Cher) 变 成 了 第 二 个 宾语 (duck) ; make 还 可 以 带 一 个 直接 宾语 
和 一 个 动词 (1.4) ， 表 示 使 直接 宾语 (her) 去 进行 某 个 动作 
(duck) 。 此 外 ， 在 口语 的 句子 中 ， 还 可 以 有 一 种 更 为 深刻 的 卜 义 ， 第 
一 个 词 I 可 以 被 理解 为 eye， 或 者 第 二 个 词 made 可 以 被 理解 为 maid。 这 
FÉ, B aE INEZ D. 








BOGE AA a Pee EMR. ERSTE Za, HA aA 
学 家 亚 里 士 多 德 〈Aristotalas) 就 在 他 的 《工具 论辩 请 篇 》 中 ， 探 讨 了 
自然 语言 的 歧义 问题 ， 亚 里 士 多 德 对 下 义 的 研究 是 为 哲学 辩论 中 的 语言 
应 用 服务 的 。1930 年 ， 燕 卜 苏 CW. Empson) RRS CEH 
型 》 (Seven Types of Ambiguity ) 一 书 ， 开 始 从 语言 理论 的 角度 研究 上 
义 问题 。1971 年 ， 科 艾 O. G. Kooij) 发 表 了 专著 《自然 语言 的 歧义 》 
CAmbiguity in Natural Language ) ， 更 进一步 系统 地 来 研究 自然 语言 的 
Js SC [FR] pel 











在 现代 语言 学 的 发 展 史 上 ， 歧 义 问 题 总 是 成 为 东 个 新 的 语言 学 派 凯 
起 时 癌 传 统 阵 地 进击 的 突破 口 。 美 国 描写 语言 学 和 乔 姆 斯 基 的 转换 生成 
语法 都 非常 注意 歧义 问题 的 研究 。 





目 然 语言 的 卜 义 问题 ， 实 质 上 是 意义 与 形式 之 间 的 矛盾 问题 。 同 一 
形式 与 不 同 的 意义 相 联 系 ， 束 必然 会 产生 歧义 ， 这 是 自然 语言 不 同 于 人 
工 语言 的 特点 之 一 。 托 马 斯 CL. Thomas) 指出 ， 自 然 语言 与 其 他 任何 
二 值 远 辑 通讯 系统 的 根本 区 别 ， 葡 在 于 目 然 语 言 有 上 监 义 。 





同形 此 义 的 研究 有 助 于 揭示 同一 形式 隐 含 着 的 细微 兰 异 ， 从 而 提高 
人 们 对 语言 现象 的 认识 ， 推 动 语言 研 完 方法 的 改进 。 





在 上 自然 语言 处 理 中 ， 同 形 歧 义 是 一 个 不 能 回避 而 且 也 无 法 回避 的 问 
题 。 同 形 卜 义 往往 使 得 自然 语言 的 自动 询 析 进退 维 谷 ， 成 为 自然 语言 计 
算 机 处 理 的 巨大 障碍 。 











在 本 章 中 ， 我 们 将 讨论 结构 歧义 、 科 技术 语 与 日 常生 活 中 的 潜在 歧 
义 等 问题 ， 并 介绍 结构 上 收 义 消解 的 一 些 方 法 。 


第 一 站 ”结构 监 义 现象 


语言 中 的 同形 下 义 既 反映 在 单词 上 ， 又 反映 在 由 单词 组 成 的 各 种 结 
构 上 ， 形 成 词汇 皮 义 (lexical ambiguity) 和 结构 歧义 (structural 
ambiguity) . 


打开 任何 一 本 英语 词典 ， 我 们 可 以 有 发现， 许多 单词 都 可 能 属于 几 个 
不 同 的 词类 。 








例如 ，order 可 作为 名 词 N， 其 含义 是 “次 序 ， 顺 序 ”， 又 可 作为 动词 
V， 其 含义 是 “整理 ， 安 排 ”，book 可 作为 名 词 N， 其 含义 是 “ 书 ”， 又 可 
作为 动词 ， 其 含义 是 “预定 ”。 


这 就 是 英语 中 单词 的 兼 类 现象 ， 兼 类 就 是 一 种 词汇 监 义 。 
英语 的 形态 标志 -s 也 有 上 坚 义 ， 如 果 加 在 名 词 之 后 ， 表 示 复 数 ， 如 果 
加 在 动词 之 后 ， 则 表示 现在 时 单数 第 三 人 称 ， 这 也 是 一 种 词汇 蚊 义 。 


如 果 单 词 X 加 上 -er， 形 成 “Xer*"”， 也 会 产生 歧义 ， 有 了 时 其 售 义 是 “one 
that Xes”。 例 如 ，clean 〈 清 洁 的 ) 加 上 -er 形成 cleaner， 其 含义 可 为 “ 清 
洁 器 ”*”， 也 可 为 “更 干净 ”;， smooth (平滑 的 ) 加 上 -er 形成 smoother， 其 售 
义 可 为 “ 修 光 工具 ”， 也 可 为 “更 光滑 ”。 这 也 是 一 种 词汇 歧义 。 








关于 词汇 歧义 ， 我 们 在 词汇 的 自动 处 理 中 已 经 介绍 过 ， 效 不 玩 述 。 


如 果 一 个 语法 可 以 把 一 个 以 上 的 剖析 指派 给 同一 个 句子 ， 那 么 ， 我 
们 就 说 ， 这 个 句子 具有 结构 歧义 (structure ambiguity) 。 英 语 中 的 结构 
上 玻 义 有 多 种 ， 归 纳 如 下 : 





1. ÆR X (Attachment ambiguity? 


a) PP 附着 区 义 CPP attachment ambiguity ) 


在 “VP + NP1 + Prep +NP2” 这 样 的 结构 中 ， 介 词 词组 PP (Prep + 
NP2) 既 可 以 作为 名 词 词组 NP1 的 定语 ， 又 可 以 作为 动词 词组 VP 的 状 
语 ， 这 就 产生 了 歧义 。 


例如 ， 人 句子“I] saw a boy with a telescope” 中 的 NP2“a telescope”， 当 
它 作为 NP1“a boy” 的 定语 时 ， 句 子 的 含义 是 “我 看 到 了 一 个 这 着 望远镜 
的 男孩 ”〈 试 比较 : "I lost the ticket to Berlin”[ 我 丢失 了 去 柏林 的 车 
Il): 当 它 作为 VP“saw” 的 状语 时 ， 句 子 的 含义 是 “我 用 望远镜 看 见 了 
一 个 男孩 ”〈 试 比较 : "I send the ticket to Berlin”[ 我 往 柏 林 寄 出 了 车 


票 ] ) 。 


又 如 ， 如 果 我 们 有 英语 句子 “They made a report about the 
ship” 和 “On the ship, they made a report”， 这 两 个 句子 是 没有 歧义 的 ， 但 
是 ， 如 果 我 们 把 它们 改写 成 句子 “They made a report on the ship", “on 
the ”ship” 这 个 PP 可 以 修饰 动词 made， 也 可 以 修饰 名 词 report， 就 产生 了 
PP 附着 歧义 。 我 们 可 以 把 这 种 PP 附着 皮 义 写 为 如 下 形式 : 


1) They made a report about the ship. 
On the ship, they made a report. 
5 They made a report on the ship. 


BUSA Bl TEL ES] Pe SC BE, MAE METTER. IURIS 
义 可 用 树 形 图 直观 地 表示 如 下 : 


2) 


3) 


4) 


5) 


6) 


NP VP NP VP 
Pronoun V NP PP Pronoun V NP 
MENS T b. e 
They made Det Nom P NP They | made Det Nom 
E uu ON | 
a N on Det Nom a Nom PP 
| | Du X 
report the N | | NP 
a report on Det ili 
the N 
the 
PP 修饰 动词 V PP 修饰 名 词性 成 分 Nom 


图 5.1 PP 附着 歧义 





为 外 的 例子 还 有 : 


They made a decision concerning the boat. 

On the boat, they made a decision. 

> They made a decision on the boat. 

He drove the car which was near the post office. 
Near the post office, he drove the car. 

5 He drove the car near the post office. 

They are walking around the lake which is situated in the park. 
In the park, they are walking around the lake. 

5 They are walking around the lake in the park. 
He shot at the man who was with a gun. 

With a gun, he shot at the man. 

5 He shot at the man with a gun. 


The policeman arrested the thief who was in the room. 


In the room, the policeman arrested the thief. 


5 The policeman arrested the thief in the room. 


GRAF (Church) 和 帕 提 尔 (Patil) (1982) 证 明了 ， 在 带 多 个 介词 
短语 PP 的 名 词 短 语 中 ， 名 词 短语 剖析 结果 的 卜 义 的 数量 随 着 介词 短语 
PP 的 数量 的 增加 而 增加 ， 其 增加 速 京 与 算术 表达 式 的 插入 数 (number 
of parenthesization) 相同。 这 个 插入 问题 是 按照 Catalan 数 (Catalan 
number) 以 指数 增长 的 。 如 果 用 C GO 表示 Catalan 数 ， 那 么 ， 其 计算 
AN: 


CC n) 


2n 
LIT | 
n 
1 x 2n 2n -1)..(n+l) 
n-4l n! 
下 面 的 表 显 示 了 简单 名 词 短 语 的 剖析 歧义 的 数量 与 它 所 带 的 介词 短 
语 的 数量 之 间 的 函数 关系 。 


b) 动 名 词 附 着 歧义 (Gerundive attachment ambiguity ) 


英语 句子 中 的 动 名 词 可 能 修饰 中 心动 词 ， 作 为 动词 的 状语 ， 也 可 能 
作为 动词 宾语 从 句 中 的 谓语 ， 从 而 引起 结构 歧义 。 


PP 的 数量 NP jn prés (09 dicht 





2 
3 
4 
5 
6 
7 
8 
9 











AI5.2 NP rz R-SPPIN ER COS: ZR 


例如 。 在 句子 “We saw the Eiffel Tower flying to Paris” 中 ， 动 名 词 短 
语 “flying to Paris” 可 能 修饰 动词 “saw”， 作 为 “saw” 的 状语 ， 句 子 的 意思 
ERAI KIERRE y RIER”; (Ae, “flying to Paris” 也 可 能 
作为 动词 “saw” 的 从 名 “the Eiffel Tower flying to Paris” 中 的 谓语 ， 句 子 的 
意思 是 “我 们 看 到 埃菲尔 铁塔 正 辐 巴黎 飞 来 ”。 当 然 ， 后 面 这 种 情况 只 在 
神话 世界 或 者 章 话 世界 中 才 可 能 发 生 。 


男 外 的 例子 还 有 : 


2) I saw that a boy was swimming in the river. 
I saw a boy who was swimming in the river. 
I saw a boy while I was swimming in the river. 
> I saw a boy swimming in the river. 
3) I noticed that the man was smoking in the corridor. 
I noticed the man who was smoking in the corridor. 
I noticed the man while smoking in the corridor. 


5 I noticed the man smoking in the corridor. 


c) 局 部 歧义 Cocal ambiguity ) 





AREA BRIT ERA, (Ae 8) T rp REE AB oD TERT 
WHE Ay Bee A BOA, XI. LSS CAE PANIC X e 


例如 ， 句 子 “book that flight" ÆA Ex XJ, Hie, ESI REB, 
当 齐 析 程 序 扫描 到 单词 book”" 的 时 候 ， 可 能 辨 不 清 这 个 book 是 动词 还 是 
名 词 ， 在 这 种 情况 下 ， 就 应 该 采用 回溯 (backtracking) 或 者 并 行 分 析 
(parallelism) 的 办 法 ， 同 时 考虑 到 两 种 可 能 的 谢 析 。 “book Kpr E 
一 个 兼 类 词 ， 如 果 我 们 在 形态 分 析 的 时 候 ， 就 进行 了 兼 类 词 “book” 的 歧 
义 消解 ， 就 可 以 大 大 减少 这 样 的 局 部 卜 义 问题 。 


2. JE AJ (Coordination 
ambiguity ) 


FPA X Hand SEES X. a Pe] Sandi AI, Hi T and 
AN Se EAN S], umm BY AGRI AN Te], I AE fT X. 








例如 ， 我 们 在 第 一 章 中 提 到 的 例子 “old men and women” 可 解释 
为 “年 老 的 男人 和 所 有 的 女人 ”， 这 时 ， 层 次 结构 为 ( (old men) and 
women) ，and 与 old 无 天 ， 也 可 解释 为 “< 所 有 年 老 的 男人 和 所 有 年 老 的 女 
人 ”， 这 时 ， 层 次 结构 为 Cold (men and women) ) ，and 与 old 有 关 。 








下 面 是 并 列 牙 义 的 例子 ， 箭 头 后 面 的 句子 是 有 并 列 牙 义 的 : 


1) She looks care of old men and old women. 


She looks care of women and old men. 


5 She looks care of old men and women. 
2) Mr. John is a scientist of great fame and a professor of great fame. 
Mr. John is a professor of great fame and a scientist. 
5 Mr. John is a scientist and a professor of great fame. 
3) Someone tells me he's cheating, and I can't do anything about it. 
Someone tells me that he's cheating and that I can't do anything 
about it. 
5 Someone tells me he's cheating and I can't do anything about it. 
4) John will go, or Dick and Tom will go. 
John or Dick will go, and Tom will go. 


5 John or Dick and Tom will go. 


3. ZWEE BX C(Noun-phrase 
bracketing ambiguity ) 





当 两 个 或 两 个 以 上 的 名 词组 成 词组 时 ， 对 整个 名 词 词组 的 含义 往往 
可 以 作 不 同 的 解释 ， 就 会 产生 结构 歧义 。 


例如 ， 由 名 词 widget《〈 作 附件 用 的 小 机 械 ) 和 名 词 hammer (EF) 
组 成 的 名 词 词组 widget ”hammer， 既 可 以 理解 为 “widget ^ used as 
hammer”( 作 和 锤子 用 的 小 机 械 ) ， 又 可 理解 为 "hammer for hitting 
widget”( 锤 击 小 机 械 的 锤子 )， 从 而 产生 卜 义 ; 如 果 在 前 面 再 加 上 一 个 
名 词 town〔 城 市 ) ， 组 成 名 词 词组 town widget hammer， 其 层次 结构 可 
分 析 为 〈 Ctown widget) hammer) ， 又 可 分 析 为 (town (widget 
hammer) ) ， 这 样 的 名 词 词组 的 皮 义 就 更 为 严重 了 。 这 种 结构 歧义 是 





由 于 层次 不 同 造成 的 ， 而 层次 可 以 使 用 括号 来 表示 ， 因 此 ， 我 们 把 这 种 
歧义 叫做 “名 词 短 语 括 号 歧义 ”。 


当 形 容 词 修辞 名 词 短语 的 时 候 ， 也 会 发 生 类 似 的 结构 歧义 问题 。 


例如 ， 在 名 词 短 语 “ADJ + N1 + N2” 中 ， 形 容 词 ADJ 可 能 修饰 
N1+N2， 也 可 能 只 修饰 N1， 从 而 形成 长 义 。 第 一 种 情况 可 用 括号 表示 
为 NP (ADJ (NP (N1 N2) 2 ) 。 第 二 种 情况 可 用 括号 表示 为 
NP (NP (ADJN1) N2) 。 这 种 歧义 可 由 下 图 说 明 : 


NP(ADJ(NP(NI N2))  NP(NP(ADJ NI) N2). 


NP NP 
m d "e qp Ue 
Adj NP NP N2 
P dit P m 

NI N2 ADJ NI 

图 5.3 ”名 词 短 语 括号 歧义 








下 面 是 名 词 短语 括号 监 义 的 例 了 于 ， 荫 头 后 面 的 句子 是 有 名 词 短语 括 
SUB XB: 


1) The salesman who sells old cars is busy. 
The old salesman who sells cars is busy. 
5 The old car salesman is busy. 
2) He is a Department Head, who is from England. 
He is Head of the English Department. 
5 He is an English Department Head. 


如 果 在 一 个 英语 句子 中 ， 既 包含 有 “VP + NP1 + Prep + NP2” 这 样 的 
结构 ， 其 中 的 NP1 或 NP2 又 是 由 知 干 个 名 词组 合 而 成 的 名 词 词组 ， 并 且 


还 包含 连接 词 and， 那 么 ， 这 个 句子 的 上 义 将 成 倍 地 增长 ， 其 训 析 的 难 
度 也 就 更 大 了 。 

以 上 是 英语 中 三 种 主要 的 攻 义 结构 ， 此 外 ， 瑞 语 中 还 有 很 多 监 义 结 
构 ， 下 面 ， 我 们 做 进一步 说 明 。 


4. 歧义 结构 “Somebodyis + V-ing + N” 


V-ing 可 能 修饰 N， 形 成 NP，V-ing 也 可 能 与 前 面 的 is 结合 ， 形 成 
VP， 从 而 产生 了 歧义 。 如 下 所 示 : 


Somebody is V-ing N Somebody is V-ing N 
NP BE NP NP VP NP 


例如 : 








1) They are receiving women as guest. 
They are amusing women. 
> They are entertaining women. (entertaining 有 “接待 ?和 “ 快 
乐 ” 等 不 同 含义 ) 
2) They are flying the planes. 
They are the flying planes. 
5 They are flying planes. 
3) They are roses which are growing. 
They are cultivating roses. 
5 They are growing roses. 
4) They are having apples. 
They are apples for eating. 


5 They are eating apples. 


5. Ex X. Zi *somebody has + V-ed + 
N? 


V-ed 可 能 修饰 N， 形 成 NP，V-ed 也 可 能 与 前 面 的 has 结 合 ， 形 成 
VP， 从 而 产生 歧义 ， 如 下 所 示 : 


Somebody has  V-ed N Somebody has V-ed N 
NP HAVE NP NP VP NP 


例如 ， 





1) He has already discarded boots. 
He has a pair of discarded boots. 
5 He has discarded boots. 

2) They have used cars as a transportation tool. 
They have a few used cars. 


5 They have used cars. 


6. 2) is] AN E XO XLI Mt 96 


动词 不 定式 可 能 做 它 前 面 的 名 词 的 修饰 语 ， 也 可 能 做 中 心动 词 的 状 
iB. Min re AE X. 


例如 ， 


1) He wants an assistant who can finish the experiment. 

To finish the experiment, he wants an assistant. 

5 He wants an assistant to finish the experiment. 
2) The students will discuss their plan about a dance party that they are 
to hold. 

In order to hold a dance party, the students will discuss their plan. 


5 The students will discuss their plan to hold a dance party. 


7. E X. 24 4 “Something is not to do” 


Not 可 能 与 它 前 面 的 is 相 结合 ， 形 成 否定 形式 is not，not 也 可 能 与 它 
后 面 的 to do 结合 ， 形 成 not to do， 从 而 产生 歧义 。 如 下 所 示 : 


Something is notto do Something is not to do 
例如 ， 


His object isn't to eat.( 他 的 目的 不 是 吃 。) 
Not to eat is his object. (RAY A AY AZ.) 


5 His object is not to eat. 


8. I5 Y Z5 #4) “something is ready to do” 








这 种 结构 中 的 is ready 可 能 表示 主动 态 ， 也 可 能 表示 被 动态 ， 从 而 形 
WREX 0 


例如 ， 


1) The chicken is ready to eat some food. 
The chicken is ready to be eaten. 
5 The chicken is ready to eat. 

2) The horse itself is ready to ride on the track (on the way). 
The horse is ready for someone to ride. 


5 The horse is ready to ride. 


9. “V-ing” 5| AY Iz. X. 


“V-ing" 可 能 具有 主动 和 被 动 两 种 含义 ， 从 而 引起 歧义 。 
例如 ， 


1) John likes to question scientist. 
John likes scientist who often asks questions. 
5 John likes questioning scientist. 

2) The way of the hunter shot was terrible. 
That the hunter was shot was terrible. 


5 The shooting of the hunter was terrible. 


10. WIS S| HA A 


Her 可 能 做 双 宾 语 中 的 间接 宾语 的 修饰 语 ， 也 可 能 单独 做 间接 宾 


语 ， 从 而 引起 歧义 。 
例如 ， 


1) Mary gave picture to her baby. 
Mary gave baby picture to her. 
5 Mary gave her baby picture. 
2) Mary taught manners to her child. 
Mary taught child manners to her. 


5 Mary taught her child manners. 


11.5: X £6 EJ*V + her +3) 4 HR ie] ^ 


当 动 名 兼 类 词 解释 为 名 词 时 ，her 是 这 个 名 词 的 修饰 语 ， 当 动 名 兼 
类 词 解释 为 动词 时 ，her 古 这 个 动词 的 宾语 ， 从 而 形成 上 收 义 。 


例如 ， 


1) I heard that she cried to help. 

I heard her loud cry for help. 

> I heard her cry for help. 
2) I saw the wonder she had done. 

I saw her feel greatly surprised. 

5 I saw her wonder. (wonder 有 “奇迹 ”和 “惊奇 ”等 不 同 含义 ) 
3) I saw her remain awake. 

I saw the watch belonged to her. 


5 I saw her watch. watch 有 “观察 >”? 和 “手表 ”等 不 同 含义 ) 





4) Isawher lower her head. 
I saw the duck which belonged to her. 
5 I saw her duck.〈duck 有 “低头 ”和 “鸭子 ”等 不 同 含义 ) 


12. J X. £5 #4 “V + somebody + V-ed” 


V-ed 可 能 做 somebody 的 修饰 语 ， 也 可 能 做 从 句 中 的 谓语 ， 从 而 产生 
JE X. 


例如 ， 


She found that a boy was hidden behind the door. 
She found a boy who was hidden behind the door. 
5 She found a boy hidden behind the door. 


13.5 X ZV + somebody + who 
clause” 


66. 


who dlause” 可 能 做 somebody 的 修饰 语 ， 也 可 能 做 动词 V 的 宾语 从 
A), Mitr? AE be 


例如 ， 


1) Iasked the professor, who would give the lecture. 


I ask the professor. This professor would give the lecture. 


+ I asked the professor who would give the lecture. 
2) John asked the lady, who was sitting on the stairs. 
John asked the lady. She was sitting on the stairs. 


5 John asked the lady who was sitting on the stairs. 


14. 收 义 结 构 “V + somebody + when 
clause” 


“when ”dlause” 可 能 做 动词 V 的 时 间 状 语 ， 也 可 能 做 动词 V 的 宾语 从 
颁 ， 从 而 产生 卜 义 。 


例如 ， 


Tell me at what time you are free. 
When you are free, tell me. 


5 Tell me when you are free. 


15. jx XAV + somebody + if 
clause” 


“if clause”) HEME V JA TE 8), t RT BEST] V B ER AR, 
从 而 产生 歧义 。 


例如 ， 


1) Tell me whether you have time or not. 
If you have time, tell me. 


5 Tell me if you have time. 


16. I Y 25 4J*V + if clause” 


JU REB SCRI 5 BU TR HJ IS IR. “if clause” 可 能 做 动词 V 的 条 
件 从 句 ， 也 可 能 做 动词 V 的 宾语 从 句 ， 从 而 产生 歧义 。 


例如 ， 


Let me know whether you're coming or not. 
If you're coming, let me know. 


> Let me know if you're coming. 


17. 修饰 语 的 歧义 


由 修饰 语 产生 的 上 监 义 有 各 种 不 同 的 情况 ， 从 下 面 的 例句 中 ， 读 者 不 
难看 出 它们 的 差别 来 。 


1) It is a pretty skirt for a little girl. 
It is a fairly (=pretty) little skirt for a girl. 
It is an attractive (=pretty) little skirt for a girl. 
It is a skirt for a fairly little girl. 


It is a skirt for an attractive little girl. 


— It is a pretty little girl's skirt. 
2) Do you happen to know the gentleman next to the lady who is 
reading a book? 

Do you happen to know the gentleman who is reading a book, next 
to the lady? 

5 Do you happen to know the gentleman next to the lady reading a 
book? 
3) I recommended John to Tom. The former was approachable. 

I recommended John to Tom. The latter was approachable. 

5 I recommended John to Tom who was approachable. 
4) Ilike the books on the shelves. I bought the shelves yesterday. 

I like the books on the shelves. I bought the books yesterday. 

5 I like the books on the shelves I bought yesterday. 
5) There is a theatre located near the business district. The theatre is 
crowded every night. 

There is a theatre near the business district. The business district is 
crowded every night. 

5 There is a theatre near the business district which is crowded 
every night. 
6) The secretary granted my request namely that I might see the 
president. 

The secretary granted my request so that I might see the president. 


5 The secretary granted my request that I might see the president. 


18. JA T8 HI BEX 


由 状语 产生 的 卜 义 有 各 种 不 同 的 情况 ， 从 下 面 的 例句 中 ， 读 者 不 难 
看 出 它们 的 差别 来 。 


1) When you are free, tell him. 
Tell him at what time you are free. 


5 Tell him when you are free. 


WY 


2) If you have time, tell me. 
Tell me whether you have time or not. 


5 Tell me if you have time. 


WY 


3) She knew that, before I met you, you had begun to study NLP. 
Before I met you, she knew that you had begun to study NLP. 


5 She knew that you had begun to study NLP before I met you. 





73 Y Ross aT PY IHE SC RS, SBT ES B EA OR PET 
提出 了 确定 性 剖析 算法 (determinism) ， 这 种 算法 主张 ， 在 句子 的 剖析 
过 程 中 ， 尽 量 不 要 在 局 部 的 上 琉 义 问题 上 纠缠 ， 不 要 回溯 ， 不 要 改变 初 
囊 ， 一 定 要 不 屈 不 挠 地 去 找寻 唯一 正确 的 结构 描述 。 学 者 们 还 提出 了 辐 
前 看 〈lookahead) 的 超前 分 析 策 略 、 局 发 式 分 析 策 略 〈heuristics) 、 移 
进 一 规约 剖析 算法 (shift-reduce Parsing algorithm) 、 线 图 剖析 法 (chart 
parser) 等。 可见， 同形 卜 义 确实 是 目 然 语言 处 理 中 的 一 个 至 关 重 要 的 


问题 。 

















前 面 我 们 分 析 来 英语 中 的 结构 歧义 ， 现 在 我 们 讨论 汉语 的 结构 监 义 


问题 。 


早 在 1959 年 ， 赵 元 任 就 写 了 《汉语 中 的 皮 义 问题 》 (Ambiguity in 
Chinese， 译 文 载 《 语 言 学 论 从 》， 第 十 五 辑 ， 商 务 印 书馆 ，1988 
年 ) ， 这 是 我 们 见 到 的 最 早 的 一 篇 关于 汉语 歧义 问题 的 理论 探讨 的 专 


论 。 此 后 ， 朱 德 巾 于 1980 年 写 过 《汉语 句法 里 的 卜 义 现象 》 《中 国语 
文 》，1980 年 ， 第 2 期 ， 从 句法 的 角度 研究 汉语 的 卜 义 。 同 形 歧义 一 
HEREN S AA ER OHI 





汉语 中 的 词汇 蚊 义 主要 体现 在 多 义 词 和 兼 类 词 上 ， 多 义 词 是 具有 一 
个 以 上 意义 的 词 ， 兼 类 词 是 具有 一 个 以 上 词类 类 别 的 词 。 关 于 这 样 的 词 
汇 歧义 ， 本 书 在 第 二 章 第 四 节 中 讲 文本 目 动 标注 时 已 经 讨论 过 。 这 里 ， 
我 们 主要 讨论 一 下 汉语 中 的 结构 歧义 问题 。 





前 面 我 们 列举 了 18 种 英语 中 的 结构 皮 义 现象 ， 其 中 最 重要 的 结构 歧 
SCA BF. PRI HIE A ti] RTE TR SK o 


FETE PE — RS AL PBC, BN op a} a] ZA PPB EAE CEE TY 
那 种 附着 卜 义 ， 汉 语 中 并 不 多 见 。 因 为 汉语 的 PP 作 定 语 时 ， 一 般 置 于 名 
词 词 组 之 前 ， 第 加 “的 ?>， 不 易 与 作 状 语 的 PP 相 混 。 但 是 ， 在 汉语 的 介词 
词组 中 ， 由 于 介词 管辖 范围 的 不 同 ， 却 容易 引起 歧义 。 例 如 ， 








RF C 《教师 的 ) 小 说 ) 
(天 于 〈 教 师 的 ) ) 小 说 


在 第 一 个 短语 中 ， 人 介词“ 关于 ”的 管辖 范围 是 “教师 的 小 说 ”〈 试 比 
较 : “关于 动物 的 尾巴 ”>) ， 在 第 二 个 短语 中 ， 介 词 的 管辖 范围 只 是 “ 教 
师 ”( 试 比较 :“ 关 于 动物 的 书 *) ， 因 而 产生 歧义 。 


英语 中 第 二 种 常见 的 结构 下 义 ， 即 由 于 连词 and 的 管辖 范围 不 同 而 
产生 的 并 列 结构 歧义 ， 在 汉语 中 也 存在 。 在 汉语 中 ,“ 的 ” 字 跟 连 
词 “ 和 ?用 在 一 起 ， 最 容易 产生 管辖 范围 的 问题 。 例 如 ， 


把 ( 《重要 的 书籍 和“ 手稿))〉 带 走 了 


把 (重要 的 (书籍 和 手稿 )) 带 走 了 
又 如 : 


C (ES) Al CEM) ) 都 在 这 里 了 
(和 车票 和 和 零用) 的 钱 ) 都 在 这 里 了 


英语 中 第 三 种 第 见 的 结构 歧义 ， 即 由 两 个 或 两 个 以 上 的 名 词组 成 名 
词 词 组 而 产生 的 歧义 ， 在 汉语 中 也 很 普遍 。 


由 名 词 N1 和 和 名词 N2 组 合 而 成 的 词组 ， 其 结构 关系 各 有 不 同 ， 形 成 
结构 歧义 。 


例如 ， 


CN1) + CN2) 
《女子 ) CHARMED 


可 以 指 专门 给 女子 理发 的 理发 店 ， 也 可 以 指 理发 师 全 都 是 女性 的 理发 
店 。 


由 三 个 名 词组 合 而 成 的 词组 ， 由 于 结构 层次 的 不 同 ， 也 会 产生 结构 
歧义 。 


例如 ， 
(N1+ (N2+N3) D C (N1+N2) +N3) 
(儿童 〈 文 学 作品 ) ) C OLD 作品 ) 


《中 国 〈 历 史 研 究 会 ) ) C CHASE) BELA 


北京 〈 大 学 毕业 生 ) ) C CER AS) 毕业 生 ) 


(台湾 (语言 研究 会 )) (【〔 人 台湾 语言 ) 研究 会 ) 


由 形容 词 ADJ、 名 词 N1、 名 词 N2 组 合 而 成 的 词组 ， 结 构 层 次 不 
同 ， 也 会 产生 结构 歧义 。 例 如 ， 


(ADJ + (N1+N2) ) ( (ADJ + N1) + N2) 
Ch (ee FH) ) (小 学 生 〉 字典 ) 
《新 《文学 概论 ) ) (新 文学 ) 概论 ) 
(新 (职工 宿舍 〉) CORT) 宿舍 ) 


事实 上 ， 汉 语 中 常见 的 同形 卜 义 结构 还 有 许多 ， 情 况 似 乎 比 英 语 更 
为 了 从 理论 上 概括 汉语 中 同形 收 义 结构 的 类 型 ， 朱 德 巾 在 《汉语 句 
法 中 的 歧义 现象 》 一 文中 ， 提 出 了 ”歧义 格式 ”这 个 概念 。 他 认为 ， 句 子 


的 歧义 “是 代表 了 这 些 句子 的 抽象 的 ' 句 式 ' 所 固有 的 ”外 ， 因 此 ， 他 主张 
用 “歧义 格式 ”来 概括 汉语 中 的 同形 歧义 结构 。 








朱德 照 的 这 种 见解 是 很 有 价值 的 ， 因 为 语言 中 的 任何 一 个 有 结构 上 收 
义 的 形式 ， 痢 不 是 孤零零 地 存在 的 ， 它 往往 代表 具有 茶 种 格式 的 许 许多 
多 形式 。 抓 住 歧 义 格式 是 研究 监 义 的 必要 途径 。 





但 是 ， 朱 德 辕 的 关于 “歧义 格式 ”的 见解 ， 还 有 不 完全 之 处 。 我 们 在 
目 然 语 言 处 理 的 研究 中 发 现 ， 歧 义 格 式 所 反映 的 类 别 的 监 义 ， 在 具体 的 
语言 中 有 时 存在 ， 有 时 并 不 存在 。 当 我 们 把 具体 的 单词 代 真 到 卜 义 格式 








中 的 范畴 符号 《〈 也 就 是 类 别 符号 ) 中 ， 而 使 层 义 格式 变 为 具体 的 句子 和 
词组 的 时 候 ， 有 的 句子 或 词组 中 仍然 可 以 保持 监 义 格式 原 有 的 蚊 义 ， 而 
有 的 句子 或 词组 中 ， 攻 义 格式 原 有 的 攻 义 却 消失 了 。 





例如 ， 英 语 中 最 第 见 的 第 一 种 结构 卜 义 有 如 下 的 歧义 格式 : 
VP + NP1 + Prep + NP2 


当 我 们 把 VP 代 真 为 aaw， 把 NP2 代 真 为 a boy， 把 Prep 代 真 为 with， 
把 NP1 代 真 为 a telescope 时 ， 得 到 的 “saw a boy with a telescope” A Ee SC 
的 。 


可 是 ， 如 果 我 们 把 VP, NP1, Prep, NP2 等 范畴 符号 代 真 为 别 的 单词 或 
词组 的 时 候 ， 这 个 歧义 格式 中 的 歧义 却 消失 了 。 请 看 如 下 的 例子 : 

She sent the ticket to New York. (1) 

(她 把 票 寄 到 纽约 。) 
She lost the ticket to New York. (2) 

(她 把 到 纽约 的 票 丢失 了 。) 
He cooks dinner for the children. (3) 

(他 为 孩子 们 做 饭 。) 


The company sells toys for 
children. 


fr (1) 中， 动词 sent 表 示 传 送 ， 具 有 趋向 性 ， 介 词 词组 to New 
York 作 它 的 状语 ， 不 作 名 词 词组 the ticket 的 定语 ， 歧 义 格 式 中 的 歧义 消 
RY; 在 QQ) 中 ， 动 词 lost 表 示 形 失 ， 不 具有 趋 问 性， 介词 词组 to New 
York 作 名 词 词组 the ticket 的 定语 ， 不 作 动 词 lost 的 状语 ， 卜 义 格式 中 的 歧 
义 也 消失 了 ; 同样 地 ， 在 GB) 中， 介词 词组 for the children 作 动词 cooks 
的 状语 ， 表 示 目 的 ， 而 不 作 名 词 dinner 的 定语 ， 歧 义 格式 中 的 歧义 也 消 
RY; 在 (4) 中 ， 介 词 词 组 for the children 作 名 词 toys 的 定语 ， 而 不 作 
动词 sells 的 状语 ， 攻 义 格 式 中 的 上 蚊 义 也 消失 了 。 


这 说 明 ， 在 研究 同形 皮 义 问题 时 ， 我 们 归纳 概括 出 来 的 歧义 格式 中 
所 反映 的 歧义 ， 并 不 是 现实 的 上 收 义 ， 而 是 一 种 潜在 的 卜 义 ， 当 用 具体 的 
单词 去 代 真 监 义 格式 中 的 范畴 符号 时 ， 在 所 形成 的 具体 的 句子 或 词组 
中 ， 这 种 潜在 卜 义 有 可 能 继续 保持 ， 也 有 可 能 不 再 继续 保持 而 消失 的 无 
影 无 中 了。 在 上 发 义 格式 的 研究 中 ， 这 是 一 个 值得 特别 注意 的 、 珊 有 普 志 
性 的 语言 现象 。 








在 汉语 的 歧义 格式 中 ， 也 同样 存在 着 潜在 收 义 的 问题 。 例 如 ,， “VP 
+ 的 + 是 + NP” 是 汉语 中 的 一 个 上 义 格式 ， 其 中 的 VP 是 一 个 双向 动 
ia], “VP + 的 ” 作 主 语 , “是 + NP” 作 谓语 ， 整 个 格式 是 一 个 主 谓 结构 ， 由 
于 主语 部 分 的 “VP + 的 ”可 以 是 施 事 ， 又 可 以 是 受 事 ， 因 而 产生 了 卜 义 。 
例如 ， 如 果 我 们 把 VP 代 真 为 “反对 ”， 把 NP 代 真 为 “少数 人 ”， 得 到 “反对 
的 是 少数 人 ”这 一 句子 ， 可 以 理解 为 “ 提 反 对 意见 的 是 少数 人 ”， 这 时 ， 
主语 “反对 的 ?是 施 事 ， 表 示 反 对 者 ， 也 可 以 理解 为 "所 反对 的 是 少数 
人 ”， 这 时 ， 主 语 “ 反 对 的 ”是 受 事 ， 表 示 被 反对 者 。 








SBR UVP + 的 + 是 + NP" 代 真 为 如 下 的 句子 时 ， 这 种 攻 义 都 一 
直 保 持 着 : 


“看 的 是 病人 ?可 以 理解 为 “正在 观看 茶 种 情况 的 是 病人 ”(“ 看 的 ”是 
施 事 ) ， 也 可 以 理解 为 “被 看 的 是 病人 ”(“ 看 的 ”是 受 事 ) ， 











“关心 的 是 她 母 杀 ”可 以 理解 为 “她 母 杀 关心 和 人 某 事 ”(“ 关 心 ” 是 施 
事 ) ， 也 可 以 理解 为 “ 补 关 心 的 人 是 她 母 杀 ”(“ 关 心 ” 是 受 事 ); 








“扮演 的 是 一 个 演员 ”可 以 理解 为 “一 个 演员 扮演 了 剧 中 某 个 非 演员 
的 角色 ”(“ 扮 演 的 ”是 施 事 ) ， 也 可 以 理解 为 “被 扮演 成 一 个 演员 ”(“ 扮 
演 的 ”是 受 事 ) ，; 


“援助 的 是 中 国 ? 可 以 理解 为 “中 国 援助 了 别 国 ”(“ 援 助 的 ?是 施 
事 ) ， 也 可 以 理解 为 " 别 国 援助 了 中 国 ”(〈“ 援 助 的 ”是 受 事 ) ; 


“相信 的 是 傻瓜 ?可 以 理解 为 "相信 和 某 种 情况 的 人 是 傻瓜 ”〈“ 相 信 
的 ?是 施 事 ) ， 也 可 以 理解 为 "所 相信 的 人 是 傻瓜 ”〈“ 相 信 的 ?是 受 
事 ) 。 


但 是 ， 如 果 我 们 把 歧义 格式 “VP + 的 + 是 + NP” 代 真 为 “关心 的 是 分 
数 * 时 ， 只 可 以 理解 为 “< 所 关心 的 事 是 分 数 ”, “关心 的 ”只 能 十 受 事 ， 而 
不 可 能 是 施 事 ， 因 为 “分 数 ? 不 可 能 去 关心 什么 东西 ， 这 样 ， 歧 义 格式 中 
的 潜在 歧义 也 消失 了 。 


如 果 把 歧义 格式 “VP + 的 + 是 + NP” 代 真 为 “反对 的 是 战争 "时 ， 只 可 
以 理解 为 “被 反对 的 东西 是 战争 ” “反对 的 ”只 能 是 受 事 ， 而 不 可 能 是 施 
事 ， 因 为 “战争 ”作为 无 生命 的 事物 ， 不 会 去 反对 什么 东西 ， 这 样 ， 歧 义 
格式 中 的 潜在 歧义 也 消失 了 。 





前 面 说 过 ， 汉 语 中 “N1 + N2 + N3” 是 一 种 歧义 格式 ， 因 为 它 可 以 理 
解 为 ((N1+ N2) +N3) ， 也 可 以 理解 为 (N1+ (N2+N3) ) ， 层 次 





结构 各 不 相同 ， 因 而 产生 歧义 。 如 "人 台湾 语言 研究 会 ”， 可 以 理解 为 
(台湾 语言 ) 研究 会 ) ， 研 究 会 只 研究 台湾 的 语言 ， 如 人 台湾 的 图 十 
话 、 人 台湾 的 局 山 语 等 ， 也 可 以 理解 为 (台湾 (语言 研究 会 ) ) ， 研 究 会 
进行 各 种 各 样 的 语言 研究 ， 不 限于 研究 台湾 的 语言 ， 这 时 ， 潜 在 上 收 义 在 
具体 的 这 个 词组 中 仍然 保持 着 ， 可 是 如 果 我 们 把 “Nl1 + N2 + N3” 代 真 
为 “地 名 语源 词典 ” ， 其 层次 结构 只 能 分 析 为 (地 名 语源 ) 词典 ) ， 这 
时 ， 上 义 格 式 中 的 潜在 歧义 就 消失 了 。 


前 面 还 说 过 ， 汉 语 的 “ADJ + N1 + N2” 也 是 一 种 歧义 格式 ， 因 为 它 
可 以 理解 为 ( (ADJ + ND + N2) ， 也 可 以 理解 为 (ADJ + (N1 + 
N2 ) ， 其 层次 结构 各 不 相同 ， 因 而 产生 卜 义 。 如 “小 学 生字 典 ”， 可 以 
理解 为 《小 学 生 ) 字典) ， 表 示 这 种 字典 是 专 供 小 学 生 用 的 ， 不 是 供 
中 学 生 、 大 学 生 或 其 他 人 用 的 ， 也 可 以 理解 为 〈 小 〈 学 生字 典 ) ) ， 表 
示 这 是 一 种 小 型 的 学 生字 上 典 ， 可 以 供 所 有 的 学 生 使 用 ， 这 时 ， 这 种 歧义 
格式 的 潜在 歧义 在 具体 的 这 个 词组 中 仍然 保持 着 ， 可 是 ， 当 我 们 
fE“ADJ + N1 + N2” 这 个 代 真 为 “新 英汉 词典 ?时 ， 其 层次 结构 只 能 分 析 为 
(新 (英汉 词典 ) ) ， 这 时 ， 歧 义 格式 中 的 潜在 歧义 就 消失 了 。 








由 此 可 见 ， 当 我 们 在 自然 语言 的 收 义 研究 中 ， 把 具体 的 收 义 词组 或 
卜 义 句子 概括 为 菜 种 抽象 的 歧义 格式 的 时 候 ， 这 种 抽象 的 收 义 格式 中 所 
包含 的 歧义 只 是 一 种 潜在 的 上 收 义 。 这 种 潜在 的 卜 义 在 该 歧义 格式 锐 代 真 
为 其 他 的 词组 或 句子 时 ， 有 可 能 继续 保持 ， 也 有 可 能 消失 。 这 是 目 然 语 
言 卜 义 格式 研究 区 别 于 自然 语言 的 一 般 句 法 研究 的 一 个 重要 特点 ， 我 们 
在 目 然 语 言 的 上 收 义 格式 的 研究 中 ， 不 可 不 注意 这 一 个 重要 特点 。 我 们 所 
出 的 “潜在 歧义 ”改进 了 朱德 申 教 授 关 于 “ 卜 义 格式 ”的 理论 ， 把 “ 皮 义 格 
式 ” 的 理论 更 加 深化 了 。 





第 二 节 ”科技 术语 中 的 潜在 歧义 


本 书 作 者 于 1986 年 至 1988 年 在 联邦 德国 夫 表 禾 灾 研究 院 CFhGO 新 
言 息 技 术 与 通讯 系统 研究 所 担任 客座 研究 员 期 间 ， 为 了 解决 自然 语言 歧 
义 研究 中 的 这 一 重要 问题 ， 曾 经 以 汉语 科技 术语 作为 研究 素材 ， 探 讨 了 
汉语 科技 术语 中 的 潜在 歧义 问题 ， 明 确 地 提出 了 * 潜 在 歧义 
W” (Potential Ambiguity Theory， 简 称 PA 论 ) ， 并 且 在 VAX 11/750 计 算 
机 上 ， 分 析 了 汉语 术语 数据 库 GLOT-C 中 的 全 部 词组 型 术语 ， 证 明了 洪 
在 歧义 论 的 正确 性 。 





为 什么 当时 我 们 的 研究 要 以 汉语 科技 术语 为 研究 素材 ， 而 不 以 日 第 
语言 材料 为 研究 素材 呢 ? 





这 是 因为 汉语 科技 术语 只 有 一 小 部 分 是 单词 型 术语 ， 如 “程序 ， 算 
法 ， 流 程 ? 等 ， 而 大 部 分 都 是 词组 型 术语 ， 词 组 型 术语 可 以 由 两 个 词 构 
成 ， 如 “程序 /设计 ”， 或 者 由 三 个 词 构成 ， 如 “数字 /字符 / 子 集 *， 或 者 由 
四 个 词 构成 ， 如 “条 件 / 控 制 /转移 /指令 *， 或 者 由 五 个 词 构成 ， 如 “平均 / 
无 /故障 /工作 /时 间 ”， 或 者 由 六 个 词 构成 ， 如 “四 /分 /之 /一 /平方 /乘法 
器 ”， 对 于 这 些 词组 型 术语 的 结构 进行 歧义 分 析 ， 可 以 揭示 汉语 科技 术 
语 的 内 在 结构 规律 ， 从 而 为 科技 术语 的 规范 化 和 新 术语 的 命名 ， 在 语言 
学 上 提供 理论 根据 ， 使 汉语 科技 术语 的 研究 工作 与 汉语 语法 和 语义 的 研 
完工 作 更 加 紧密 地 结合 起 来 ， 这 是 一 个 方面 的 原因 。 


另外 ， 还 有 另 一 个 方面 的 原因 ， 就 是 我 们 试图 以 汉语 词组 型 科技 术 
语 的 歧义 研究 ， 作 为 汉语 句子 收 义 研究 的 突破 口 。 


朱德 妹 教 授 生 前 在 讨论 汉语 的 特点 的 时 候 指出 :“ 如 果 我 们 把 各 类 
词组 的 结构 都 足够 详细 地 描述 清楚 了 ， 那 末 句 子 的 结构 实际 上 也 就 描述 
清楚 了 。 因 为 句子 不 过 是 独立 的 词组 而 已 。” 可 见 ， 要 解决 汉语 句子 的 
目 动 句 法 分 析 这 个 大 问题 ， 可 以 首先 从 汉语 句子 的 上 自动 句法 分 析 入 手 ， 
而 要 解决 汉语 句子 的 歧义 问题 ， 首 先 也 要 从 汉语 词组 的 卜 义 分 析 入 手 。 
汉语 的 科技 术语 绝 大 部 分 是 词组 型 术语 ， 这 些 词 组 型 的 科技 术语 ， 其 结 
构 一 般 比 较 严 说 ， 其 含义 一 般 比 较 单 纯 ， 它 们 在 一 定 程度 上 反映 了 汉语 
词组 结构 的 规律 ， 如 果 我 们 把 汉语 词组 型 科技 术语 的 结构 描述 清楚 了 ， 
也 就 有 可 能 把 汉语 的 词组 结构 描述 清楚 了 ， 并 进一步 把 汉语 句子 的 的 结 
构 描 述 清 楚 了， 而 如 果 我 们 把 汉语 词组 型 科技 术语 的 歧义 问题 描述 清楚 
了 ， 也 就 有 可 能 把 汉语 词组 的 卜 义 问题 描述 清楚 了 ， 并 进一步 把 汉语 句 
子 的 监 义 问题 描述 清楚 了 。 











正 是 基于 这 样 的 信念 ， 我 们 从 汉语 词组 型 科技 术语 的 歧义 研究 中 ， 
找到 了 解雇 汉语 句子 政 义 问题 的 钥匙 。 我 们 认为 ， 这 是 汉语 自然 语言 计 
算 机 处 理 的 一 项 基础 性 工作 。 在 实质 上 ， 这 也 是 一 种 “ 受 限 语 
iX" (restricted grammar) 的 研究 ， 它 可 以 为 汉语 的 计算 语言 学 提供 一 个 
简明 的 皮 义 分 析 模 型 。 





根据 短语 结构 语法 ， 我 们 用 树 形 图 来 表示 汉语 科技 术语 的 结构 。 树 
形 图 的 几何 形状 表示 术语 结构 的 几何 值 ， 它 反映 了 组 成 术语 的 各 个 成 分 
之 加 的 线性 的 顺序 关系 以 及 空间 的 层次 关系; 树 形 图 上 各 个 结 点 的 标记 
表示 术语 结构 的 代数 值 。 由 于 术语 的 结构 比 句 子 简单 ， 我 们 采用 二 又 单 
标记 树 形 图 (binary mono-labelled tree graph) 来 表示 术语 的 结构 ， 并 在 
此 基础 上 ， 建 立 描述 汉语 词组 型 术语 同形 歧义 的 理论 和 方法 。 








Brig*— X^ (binary) ， 驶 是 说 ， 我 们 对 于 任何 的 术语 结构 ， 在 同 
一 个 层次 上 ， 都 采用 二 分 的 方法 来 进行 切 分 ， 这 样 ， 术 语 的 几何 值 ， 就 


是 一 个 多 层次 的 二 叉 树 ;， 所谓“ 单 标 记 ”(mono-labelled) ， 就 是 说 ,我 
们 在 树 形 图 的 每 个 结 点 上 ， 只 给 一 个 标记 ， 由 于 在 术语 结构 分 析 

中 ,“ 词 ?和 “词组 类 型 ?是 最 重要 的 ， 因 此 ， 我 们 对 于 树 形 图 中 的 非 终 极 
结 点 (non-terminal node) ， 均 标 以 “词组 类 型 为 其 代数 值 ， 对 于 树 形 
图 中 的 前 终极 结 点 Cpre-terminal node) ， 均 标 以 “词类 ”为 其 代数 值 。 所 
谓 “ 前 终极 结 点 ”>， 融 是 树 形 图 中 以 终极 结 点 为 其 直接 后 裔 的 那些 结 点 ， 

在 前 终极 结 点 的 直接 后 诊 上 的 标记 ， 束 是 构成 术语 的 各 个 具体 的 单词 。 











当然 ， 这 种 二 又 单 标记 树 形 图 并 不 能 最 完善 地 描述 术语 的 结构 ， 也 
不 能 最 充分 地 反映 术语 的 全 部 代数 的 和 几何 的 性 质 。 璧 如 ， 树 形 图 中 各 
结 点 之 间 的 逻辑 语义 关系 〈 如 施 事 、 受 事 、 方 向 、 目 的 、 工 具 等 ) 、 名 
法 功能 关系 《如 主语 、 谓 语 、 宾 语 、 补 语 等 ) 以 及 据 以 辨别 该 术语 意义 
的 有 关 背 景 知识 ， 也 是 十 分 重要 的 。 但 是 ， 为 了 表述 上 的 方便 ， 我 们 只 
考虑 术语 的 词类 和 词组 类 型 信息 ， 并 在 此 基础 上 ， 进 一 步 探 讨 树 形 图 中 
各 个 结 扣 之 间 的 句法 功能 关系 和 效 辑 语义 关系 。 





一 般 地 说 ， 本 语 是 一 个 词组 ， 因 而 可 表示 为 一 个 二 又 的 单 标记 树 形 
图 。 例 如 , “字母 数字 字符 ” 


这 个 术语 ， 由 “字母 数字 ”这 个 名 词 词组 和 “字符 ”这 个 名 词组 合 而 
成 ， 其 结构 可 表示 如 下 : 


图 5.4 中 ，NP 表 示 名 词 词组 ， 它 处 于 非 终极 结 点 上 ， 是 词组 类 型 标 
记 ，N 表 示 名 词 ， 它 处 于 前 终极 结 点 上 ， 是 词类 标记 。 











字母 ” ”数字 


加 5.4[_] 用 二 又 单 标记 树 形 图 表示 术语 结构 











这 种 二 又 单 标记 树 形 图 也 可 以 表示 为 如 下 的 括号 式 : 
NP(NP(N[N)IN) 


如 果 这 种 单 标 记 树 形 图 晓 化 为 一 个 结 点 ， 那 么 ， 它 的 标记 只 能 有 一 
个 ， 这 时 ， 这 个 术语 就 是 一 个 单词 了 。 因 此 ， 单 词 型 术语 可 以 看 成 是 词 
组 型 术语 的 一 种 特殊 情况 。 一 般 地 说 ， 术 语 是 一 个 可 表示 为 二 又 单 标记 
树 形 图 的 词组 ， 当 这 个 二 又 单 标 记 树 形 图 晓 化 为 一 个 结 点 时 ， 术 语 就 是 
一 个 单词 。 





图 5.5 MBA 


二 又 单 标记 树 形 图 的 几何 形状 ， 并 不 能 全 面 地 表示 术语 的 结构 。 
为 具有 相同 几何 形状 的 树 形 图 ， 


如 果 其 结 点 上 的 代数 标记 不 同 ， 


就 会 成 为 结构 不 同 的 术语 。 例 如 , “再 局 动 点 ”这 个 术语 的 结构 如 
F: 


其 中 ，VP 表 示 动 词 词组 ，AD 表 示 副 词 ，V 表 示 动 词 ， 其 括号 表示 
WA: 


NP(VP(AD|V)|N) 





这 个 术语 的 几何 结构 与 “流程 图 符 写 ”的 儿 何 结构 是 一 样 的 。 抽 象 地 
说 ， 这 两 个 术语 的 儿 何 结构 都 可 以 表示 为 : 


Ld ~ 
4 \ 


e 
图 5.6 ”抽象 的 几何 结构 








但 是 ， 在 结 点 1 上 ， 一 个 术语 的 标记 为 NP， 一 个 术语 的 标记 为 VP; 
在 结 点 1.1 上 ， 一 个 术语 的 标记 为 N， 另 一 个 术语 的 标记 为 AD; 在 结 点 
1.2 上 ， 一 个 术语 的 标记 为 N， 为 一 个 术语 的 标记 为 V。 相 应 结 皮 上 的 代 
数值 不 完全 相同 ， 它 们 应 该 看 成 是 结构 不 同 的 术语 。 





这 两 个 几何 值 相同 而 代数 值 不 同 的 术语 ， 我 们 可 以 把 它们 表示 在 如 
下 的 有 限 状 态 转移 网 络 中 : 





图 5.7 ”有限 状态 转移 网 络 








在 这 个 有 限 状态 转移 网 络 中 ， 圆 圈 表 示 状 态 ， 记 为 9 qo @ ， 
q3 > G4» Gs» go ro 其 中 ， qo 表示 初始 状态 ， df 表示 最 后 状态 ， Al 
头 表 示 状 态 的 转移 方 同 。 





当 对 表示 词组 结构 的 二 叉 单 标 记 树 形 图 的 各 个 结 点 自 上 而 下 、 从 左 
而 右 进行 遍历 时 ， 在 树 形 图 中 从 一 个 结 点 转移 到 另 一 个 结 点 ， 在 状态 转 
移 网 络 图 中 也 就 沿 着 箭头 所 指 的 方向 从 一 个 状态 转移 到 另 一 个 状态 。 转 
移 时 树 形 图 中 各 个 结 点 的 标记 ， 就 标 在 状态 转移 网 络 图 中 相应 箭头 的 上 
方 。 为 了 说 明 状 态 转移 网 络 图 的 箭头 与 树 形 图 中 的 结 点 之 间 的 对 应 关 

系 ， 我 们 在 状态 转移 网 络 图 中 ， 还 用 虚线 把 不 同 的 状态 隔 开 ， 形 成 若干 
个 虚线 区 间 ， 每 个 区 间 对 应 于 树 形 图 上 的 一 个 结 点 。 如 果树 形 图 的 各 个 
结 点 遍历 完毕 ， 状 态 转 移 网 络 图 就 进入 最 后 状态 qy 。 这 样 ， 就 可 以 在 状 
态 转移 网 络 图 与 树 形 图 之 间 建 立 起 对 应 关系 来 。 由 于 具有 相同 几何 结构 
的 树 形 图 ， 其 结 点 上 的 代数 值 标 记 可 能 不 尽 相同 ， 所 以 ， 在 有 限 状 态 转 

















移 网 络 图 中 ， 当 状态 在 同一 虚线 区 间 内 转移 时 ， 从 同一 个 状态 到 不 同 的 
几 个 状态 ， 可 以 分 别 引出 不 同 的 箭头 ， 而 从 不 同 的 几 个 状态 到 夯 一 个 状 
态 ， 也 可 以 引出 不 同 的 几 个 箭头 指 同 这 个 状态 。 由 于 箭头 上 可 以 标 以 不 
同 的 代数 标记 ， 所 以 ， 这 样 的 有 限 状 态 网 络 图 就 可 以 表示 寿 干 个 具有 相 
同 儿 何 结构 而 代数 值 标记 不 尽 相 同 的 树 形 图 ， 对 树 形 图 进行 分 类 处 理 。 























例如 ， 上 述 的 有 限 状态 转移 网 络 图 可 以 用 来 描述 

NP (NP (NIN) [ND 和 NP (VP (ADIV) N) 这 两 个 树 形 图 。 在 标 以 0 

的 虚线 区 间 内 ， 由 于 树 形 图 的 结 点 0 上 ， 两 个 树 形 图 的 标记 均 为 NP， 所 
以 ， 由 状态 q。 转移 到 qt ， 箭 头 上 的 标记 均 为 NP; 在 标 以 1 的 虚线 区 间 
内 ， 由 于 树 形 图 结 点 1 上 的 标记 不 同 ， 分 别 为 NP 和 VP， 所 以 ， 由 状态 ql 
转移 到 qy ， 稍 头 上 的 标记 为 NP， 由 状态 qi 转移 到 q4 ， 稍 头 上 的 标记 为 
VP; 在 标 以 1.1 的 虚线 区 间 内 ， 由 于 树 形 图 结 点 1.1 上 的 标记 分 别 为 N 和 

AD，N 是 NP 的 左 直接 后 裔 ，AD 是 VP 的 左 直 接 后 裔 ， 所 以 ， 由 状态 q， 

转移 到 qs ， 箭 头 上 的 标记 为 N， 由 状态 q4 转移 到 qs ， 箭 头 上 的 标记 为 
AD; 在 标 以 1.2 的 虚线 区 间 内 ， 由 于 树 形 图 结 点 1.2 上 的 标记 分 别 为 N 和 
V，N 是 NP 的 右 直 接 后 裔 ，V 是 VP 的 右 直 接 后 裔 ， 所 以 ， 由 状态 q Flag 
， 箭 头 上 的 标记 为 N， 由 状态 q; 到 ge ， 箭 头 上 的 标记 为 V; 在 标 以 2 的 虚 
线 区 间 内 ， 由 于 树 形 图 结 点 2 的 标记 均 为 N， 所 以 ， 只 有 一 个 箭头 由 状 

态 q6 转移 到 gr ， 箭 头 上 的 标记 为 N。 这 时 ， 树 形 图 NP CNP (NIN) |ND 
和 树 形 图 NP CVP (ADIV) N) 均 已 遍历 完毕 ， 而 有 限 状 态 转移 网 络 也 
进入 了 最 后 状态 qt 。 这 样 ， 同 一 个 有 限 状态 网 络 图 ， 就 表示 了 几何 结构 
相同 而 代数 结构 不 同 的 两 个 树 形 图 。 这 两 个 树 形 图 的 几何 结构 相同 ， 故 
为 一 个 大 类 ， 这 两 个 树 形 图 的 代数 结构 不 尽 相 同 ， 故 它们 又 是 同一 个 大 
类 中 的 不 同 小 类 。 可 见 ， 有 限 状 态 转 移 网 络 图 可 以 用 来 作为 术语 结构 分 




















类 的 一 种 描述 手段 。 








值得 注意 的 是 ， 稍 头 上 的 标记 各 有 不 同 。 它 们 基本 上 可 以 分 为 两 
类 : 一 类 是 词组 类 型 标记 ， 如 NP, VP 等 ， 它 们 只 能 标记 在 树 形 图 中 的 非 
终极 结 点 上 ; 男 一 类 是 词类 标记 ， 如 N, AD, V 等 ， 它 们 只 能 标记 在 树 形 
图 中 的 前 终极 结 点 上 。 这 是 两 类 性 质 很 不 相同 的 标记 ， 有 必要 加 以 区 
别 。 为 此 ， 我 们 规定 : 在 有 限 状 态 网 络 图 中 ， 当 箭头 上 的 标记 是 词组 类 
型 时 ， 加 一 个 尖 括 号 ， 记 为 <NP>，<VP>，.….. 等 ; 当 箭 头 上 的 标记 是 词 
类 时 ， 不 加 尖 插 号 ， 记 为 N,，AD, V 等 。 在 状态 转移 网 络 图 中 ， 从 状态 qo 
开始 ， 顺 次 读 取 词 类 标记 ， 略 去 词组 类 型 标记 ， 再 插入 相应 的 词汇 单元 
《它们 标 在 树 形 图 的 终极 结 点 上 ) ， 得 到 的 线性 符号 串 ， 便 是 一 个 术 


iis 














任何 术语 都 有 字面 含义 及 学 术 含义 。 


语言 学 家 在 研究 术语 问题 时 ， 应 该 着 重 研 究 术 语 的 字面 含义 ， 而 专 
业 科学 家 在 研究 术语 问题 时 ， 应 该 着 重 研究 术语 的 学 术 合 义 。 








词组 型 术语 的 字面 含义 是 由 构成 该 术语 的 各 个 单词 以 及 把 这 些 单词 
结合 起 来 的 句法 规则 完全 地 决定 的 含义 。 而 术语 的 学 术 含 义 则 是 相应 学 
科 中 科学 地 加 以 定义 的 含义 。 术 语 的 字面 含义 是 术语 的 学 术 含 义 的 语言 
基础 。 因 为 任何 一 个 专家 也 同时 是 一 个 普通 人 ， 所 以 术语 的 学 术 含 义 不 
可 能 脱离 术语 的 字面 含义 而 单独 存在 。 术 语 的 学 术 含义 ， 其 内 容 应 该 比 
术语 的 字面 含义 更 丰富 ， 但 是 ， 术 语 的 学 术 含义 不 能 与 术语 的 字面 含义 
发 生 巴 盾 ， 它 只 能 在 术语 的 字面 含义 的 基础 上 进一步 加 以 科学 的 界 说 而 
形成 。 











术语 的 字面 含义 是 与 专业 领域 无 关 的 ， 而 术语 的 学 术 含义 则 与 它 所 


适用 的 专业 领域 有 关 ， 随 着 专业 领域 的 不 同 而 不 同 。 


术语 的 字面 含义 又 是 独立 于 时 间 的 变化 之 外 的 ， 它 不 考虑 任何 的 历 
时 变化 ， 而 术语 的 学 术 含义 则 会 随 看 学 术 的 发 展 而 不 断 地 丰 宫 其 内 涵 。 











例如 , “决策 / 量 ” 这 个 术语 ， 其 字面 售 义 由 是 “决策 ”与 “ 量 ” 这 两 个 词 
的 含义 以 及 “定语 + 中 心 语 ” 这 种 句法 结构 决定 的 ， 它 表示 “决策 ”方面 的 
量 的 大 小 ;而 其 学 术 含义 则 可 定义 为 : “从 有 限 个 互 不 相 容 事 件 中 选取 
某 个 给 定 事 件 所 需 的 决策 数 的 对 数 测度 ， 用 数学 记 数 法 表示 时 ， 这 一 测 
度 为 : Ho = log n， 其 中 ，n 是 事件 的 数目 。” 





由 于 术语 的 字面 含义 是 术语 的 学 术 含 义 的 语言 基础 ， 对 于 术语 的 字 
面 含 义 的 研究 ， 必 然 会 有 助 于 对 其 学 术 售 义 的 理解 ， 因 此 ， 语 言 学 家 有 
必要 注意 术语 的 字面 含义 的 研究 ， 并 把 这 种 研究 看 成 是 语言 学 研究 中 不 
可 缺少 的 一 部 分 。 








我 们 在 这 里 所 研究 的 术语 的 合 义 ， 主 要 是 术语 的 字面 含义 ， 这 种 字 
面 含 义 与 术语 的 结构 有 痢 密 切 的 关系 。 为 了 全 面 地 揭示 术语 的 字面 含义 
与 其 结构 之 间 的 关系 ， 应 该 区 分 三 种 不 同 层面 的 结构 : 术语 的 词组 类 型 
结构 、 术 语 的 句法 功能 结构 、 术 语 的 逻辑 语义 结构 。 








下 面 ， 我 们 就 来 分 析 这 三 种 结构 并 进而 对 “潜在 歧义 ”的 概念 作 进 一 
步 的 说 明 。 


汉语 的 词组 型 术语 可 以 用 一 个 二 又 的 单 标记 树 形 图 来 表示 ， 这 种 树 
形 图 的 标记 ， 或 者 是 词类 ， 或 者 是 词组 类 型 ， 每 个 结 点 上 只 能 容许 一 个 
标记 ， 而 在 树 形 图 的 每 个 层级 上 的 树 术 又 都 是 二 又 的 。 这 种 由 许多 层 二 
又 的 树 校 构成 的 树 形 图 ， 是 以 各 个 二 叉 的 树枝 作为 其 结构 的 基本 单元 
的 。 树 形 图 中 从 个 层级 的 树 校 上 的 两 个 相 邻 结 反 的 词类 或 词组 类 型 标记 











组 成 的 结构 ， 叫 做 术语 的 词组 类 型 结构 (Phrase Type Structure， 人 简称 
PT- 结 构 ) 。 


按 构成 PT- 结 构 的 标记 种 类 的 不 同 ， 可 把 PT- 结 构 分 为 四 种 : 





(1) 词类 标记 + 词类 标记 





PT- 结 构 由 两 个 词类 标记 构成 。 例 如 : 


ADJ+N, ADV+N, QA+N, FN+N, NA+N, NV+N, V+N, Prep+N, 
N+EN; 

N+V, ADJ+V, V+V; 

N+NV, ADJ+NV, AV+NV, NQA+NV, QA+NV, NV+NV; 

N+PR, QA+PR, V+PR, NQA+PR. 


其 中 ，ADJ 表 示 形 容 词 ，ADV 表 示 副 词 ，QA 表 示 限 定 词 ，FN 表 示 
方位 词 ，NA 表 示 名 形 同 形 词 ，NV 表 示 名 动 同 形 词 ，Prep 表 示 介 词 ，AV 
表示 形 动 同 形 词 ，NQA 表 示 名 限 同形 词 ，PR 表 示 结 构 助词 ， 其 他 与 前 
述 相同 。 








(2) 词组 类 型 标记 + 词类 标记 





PT- 结 构 由 一 个 词组 类 型 标记 和 一 个 词类 标记 构成 ， 词 组 类 型 标记 
在 前 ， 词 类 标记 在 后 。 例 如 : 


VP+N, VP+NV; 
NP+V, NP+N; 
NVP+N, NVP+NV; 
AP+N, AP+NV. 





其 中 ，NVP 表 示 名 动 同形 词 ，AP 表 示 形 容 词 词组 ， 其 他 与 前 述 相 





(3) 词类 标记 + 词组 类 型 标记 


PT-_ 结 构 由 一 个 词类 标记 和 一 个 词组 类 型 标记 构成 ， 词 类 标记 在 
前 ， 词 组 类 型 标记 在 后 。 例 如 ; 


N+NP, QA+NP, NV+NP, V+NP; 
N+VP, V+VP; 
N+NVP, QA+NVP, NV+NVP, V+NVP, FN+NVP. 


(4) 词组 类 型 标记 + 词组 类 型 标记 
由 两 个 词组 类 型 标记 构成 。 例 如 : 


AP+NP; 

NP+VP, NP+NVP; 
VP+NP, VP+NVP, VP+VP; 
NVP+NP; 

PP+VP. 


其 中 ，PP 表 示 介 词 词组 ， 其 他 与 前 述 相同 。 





术语 的 词组 类 型 结构 可 以 直接 从 二 又 单 标记 树 形 图 中 表示 出 来 ， 
此 ， 筷 是 一 种 显 性 的 结构 。 


树 形 图 中 某 一 层级 的 两 个 相 令 树枝 结 点 上 的 句法 功能 信息 ， 叫 做 术 
语 的 句法 功能 结构 《Syntactic Functional Structure， 简 称 SF- 结 构 ) 。 这 
种 结构 在 二 叉 单 标 记 树 形 图 中 没有 标 出 ， 因 此 ， 它 是 一 种 隐 性 的 结构 。 


这 种 隐 性 结构 与 显 性 的 词组 类 型 结构 之 间 存 在 独 极 为 复杂 的 对 应 关系 ， 
这 是 汉语 词组 类 型 术语 的 最 重要 的 特点 。 


由 于 二 又 树 形 图 中 的 子 树 都 是 二 又 的 ， 术 语 的 句法 功能 结构 也 相应 
地 由 前 后 两 个 句法 功能 成 分 组 成 ， 可 以 分 为 以 下 几 种 : 





(1) 主 谓 式 : 由 主语 后 加 谓语 构成 。 简 称 SP- 式 (SP 


construction) o 
主语 + 谓语 
例如 : “标记 / 读 出 ”。 


(2) 述 宾 式 : 由 述 语 后 加 宾语 构成 。 简 称 PO- 式 (PO 
construction) 。 其 格式 为 : 


ND 


述 语 + 宾语 


例如 : “编制 /程序 ”。 


(3) 述 补 式 : 由 述 语 后 加 补 语 构成 。 人 简称 PC- 式 CPC 
construction) 。 其 格式 为 ; 

述 语 + 补 语 

例如 : “ 读 / 出 ”。 


(4) 定 中 式 : 由 定语 后 加 名 词性 中 心 语 构成 。 简 称 AH- 式 (AH 
construction) 。 其 格式 为 : 





定语 + 名 词性 中 心 语 
例如 : “数据 /媒体 ”。 


(5) 状 中 式 : 由 状语 加 动词 性 中 心 语 构成 。 人 简称 DH- 式 (DH 
construction) 。 其 格式 为 : 

状语 + 动词 性 中 心 语 

例如 : “多重 /穿孔 ， 再 /启动 ”。 








(6) 联 谓 式 : 由 前 后 两 个 动词 性 成 分 联合 而 成 ， 而 且 这 两 个 动词 
性 成 分 的 功能 地 位 是 平等 的 。 简 称 RP- 式 (RP construction) 。 其 格式 
X: 


动词 性 成 分 + 动词 性 成 分 
例如 : “输入 /输出 ”。 





(7) 联 体式 : 由 前 后 两 个 名 词性 成 分 联合 而 成 ， 而 且 这 两 个 名 词 
性 成 分 的 功能 地 位 是 平等 的 。 简 称 RN- 式 (RN construction) 。 其 格式 
为 : 


名 词性 成 分 + 名 词性 成 分 
例如 : “字母 /数字 ”。 


复合 量词 也 属于 联 体式 。 例 如 ,“ 吨 /公里 ， 千 瓦 /小 时 ”。 


汉语 术语 中 的 各 种 词组 都 是 由 这 些 SF- 结 构 组 合 而 成 的 。 





在 由 前 后 两 个 句法 成 分 组 成 的 句法 功能 结构 中 ， 句 法 功能 的 着 重点 
可 能 有 所 不 同 ， 这 种 着 重点 ， 就 叫做 功能 焦点 (functional focus) 。 有 
的 结构 的 功能 焦点 在 前 ， 有 的 结构 的 功能 焦点 在 后 ， 有 的 结构 的 功能 焦 
点 则 是 并 列 的 。 按 功能 焦点 的 不 同 ， 可 以 把 术语 的 句法 功能 结构 〈 即 
SF- 结 构 ) 分 为 三 种 类 型 : 


(1) 前 焦 型 : 功能 焦点 在 前 一 成 分 的 SF- 结 构 。 它 包括 : 


L REA: 功能 焦点 在 述 语 上 
ii, 述 补 式 : 功能 焦点 也 在 述 语 上 


述 喜 式 和 述 补 式 的 前 焦 型 结构 ， 其 字面 含义 往往 是 相通 的 。 例 如 ， 
述 宾 式 前 焦 型 结构 “该 /数据 ?和 述 补 式 前 焦 型 结构 “ 读 /出 ”， 其 基本 的 字 


面 含 义 彼此 相 容 。 
(2) 后 焦 型 :功能 焦点 在 后 一 成 分 的 SF- 结 构 。 它 包括 : 


i HAN: 功能 焦点 在 谓语 上 
ii， 定 中 式 : Sy ef Ze MFP 
iii， 状 中 式 : 功能 焦点 在 动词 性 中 心 语 上 


主 谓 式 、 定 中 式 和 状 中 式 的 后 焦 型 结构 ， 其 字面 含义 也 往往 是 相通 
的 。 例 如 ， 在 “信息 处 理 不 了 ”及 “信息 的 处 理 很 成 功 ” 这 两 个 句子 
H, “信息 /处 理 " 是 主 谓 式 后 焦 型 结构 , “信息 的 /处 理 ” 是 定 中 式 后 焦 型 
结构 ， 其 字面 含义 彼此 相 容 。 又 如 , “立即 的 / 编 址 ?是 定 中 式 后 焦 型 结 
Mj, “立即 地 / 编 址 ?是 状 中 式 后 焦 型 结构 ， 其 字面 含义 也 是 彼此 相 容 的 。 











(3) 并 焦 型 : 功能 焦点 在 前 后 两 个 成 分 上 的 SF- 结 构 。 它 包括 : 


i， 联 体式 : 功能 焦点 在 前 后 两 个 体 词性 成 分 上 。 
ii, is sk: 功能 焦点 在 前 后 两 个 谓词 性 成 分 上 。 


联 体式 和 联 谓 式 的 并 焦 型 结构 ， 其 字面 含义 也 往往 是 相通 的 。 例 
如 ， 在 “计算 机 的 输出 输入 系统 "和 “他 们 输出 输入 数据 ”这 两 个 短语 中 ， 
前 一 个 “输出 /输入 ”是 联 体 性 并 焦 结 构 ， 后 一 个 “输出 /输入 ”是 联 谓 性 并 
焦 结构 ， 而 这 两 个 “输出 /输入 ”的 字面 含义 显然 也 是 彼此 相 容 的 。 





可 见 ， 从 功能 焦点 的 角度 来 看 问题 ， 述 宾 式 和 述 补 式 比 较 接近 ， 主 
谓 式 、 定 中 式 和 状 中 式 比较 接近 ， 联 谓 式 和 联 体式 比较 接近 。 我 们 把 功 


各 类 SF- 结 构 形 成 的 同 焦 结 构 〈 记 为 “+”) ARR eH Cid") 如 下 
AB: 





sake eee aa 








图 5.8 ” 同 焦 结构 和 异 焦 结 构 

















从 表 中 可 看 出 ,“ 主 请 式 一 定 中 式 *”、“ 主 谓 式 一 状 中 式 ”、“ 述 宾 式 
一 述 补 式 ”“ 定 中 式 一 状 中 式 ”、“ 联 谓 式 一 联 体 式 ” 等 SF- 结 构 对 ， 都 是 
同 焦 结 构 ， 其 它 的 各 个 SF- 对 ， 都 是 异 焦 结构 。 


树 形 图 中 某 一 层级 的 子 树 中 两 个 相 邻 树枝 结 点 的 逻辑 语义 信息 ， 叫 
做 术语 的 逻辑 语义 结构 Logic Semantic Structure， 简 称 LS- 结 构 ) 。 这 
种 结构 在 表示 术语 结构 的 二 叉 单 标记 树 形 图 中 亦 未 标 出 ， 也 是 一 种 隐 性 
的 结构 。 








术语 的 逻辑 语义 结构 主要 是 指 以 逻辑 谓词 为 中 心 ， 各 个 论 元 
(argument) 与 逻辑 谓词 (logical predicate) 之 间 的 关系 。 例 如 ， 施 事 
者 、 受 事 者 、 工 具 、 目 的 、 范 围 、 结 果 、 方 位 等 。 这 种 逻辑 语义 结构 所 
表现 出 来 的 含义 ， 强 烈 地 影响 着 人 们 对 术语 的 字面 含义 的 理解 ， 也 是 需 





要 加 以 认真 研究 的 。 


任何 术语 都 包括 PT- 结 构 、SF- 结 构 和 LS- 结 构 这 三 种 层次 各 异 的 结 
构 ， 捷 们 之 间 的 相互 作用 ， 决 定 了 术语 的 字面 含义 的 基本 内 容 。 我 们 和 锦 
常 可 以 对 术语 的 含义 作出 “ 望 文生 义 ” 或 者 “顾名思义 ”的 解释 ， 正 是 这 三 
种 结构 早 我 们 头脑 中 相互 作用 的 结 末 。 因 此 ， 我 们 用 严格 的 科学 方法 来 
分 析 这 三 种 不 同 的 结构 ， 就 有 可 能 揭示 这 种 “ 望 文生 义 ?或 "顾名思义 ? 现 
象 的 茶 些 实质 ， 从 而 对 术语 的 字面 含义 作出 科学 的 解释 。 








术语 的 PT- 结构 、SF- 结构 以 及 LS- 结 构 之 间 的 关系 可 表示 如 下 : 





图 5.9 术语 中 的 三 种 结构 





如 有 我 们 能 够 根据 术语 的 PIT- 结构 ， 通 过 有 穷 步骤 ， 目 动 地 推算 出 
术语 的 SF- 结 构 ， 并 进而 推算 出 术语 的 LS- 结 构 ， 那 么 ， 就 可 以 做 到 术 
语 语义 的 目 动 理解 。 这 正 是 中 文科 技 文章 的 目 然 语言 理解 和 汉 外 机 需 翻 
译 的 基本 问题 。 


然而 ， 对 于 汉语 来 说 ， 这 是 一 个 后 为 复杂 和 相当 困难 的 研究 谍 题 。 


汉语 术语 的 特点 是 ， 这 三 个 结构 之 间 ， 在 绝 大 多 数 情况 下 ， 不 存在 
一 一 对 应 关系 。 同 样 的 PT- 结 构 ， 可 以 解释 为 不 同 的 名 干 个 SF- 结 构 ; 
同样 的 SF- 结 构 ， 又 可 以 解释 为 不 同 的 大 干 个 LS- 结 构 。 





例如 ， 形 式 为 V+N 的 PT- 结 构 ， 它 的 SF- 结 构 可 以 解释 为 定 中 式 


6 响应/ 时间”) ， 又 可 以 解释 为 述 宾 式 〈“ 碍 / 表 ”) 。 可 见 ，PT- 结 构 与 
SF- 结 构 不 一 一 对 应 。 就 是 V+N 的 SF- 结 构 被 判断 为 述 宾 式 之 后 ， 这 个 
SF- 结 构 的 LS- 结 构 还 可 能 不 同 。 例 如 ， 述 宾 式 的 V+N 可 以 解释 为 “谓词 
+ 受 事 者 ”(〈“ 碍 / 表 ”) ， 又 可 以 解释 为 “谓词 + 施 事 者 ”(“ 跑 / 带 ”") ， 又 可 
以 解释 为 “谓词 + 结果 ”(“ 印 / 字 ”) ， 又 可 以 解释 为 “谓词 + 目的 ”(“ 归 / 

零 ") ， 又 可 以 解释 为 “谓词 + 方向 ”(“ 面 向 /问题 >) 。 可 见 ， 术 语 的 SF- 
结构 与 LS- 结 构 也 不 一 一 对 应 。 





正 因为 汉语 中 这 三 种 结构 关系 错综复杂 ， 在 传统 的 汉语 研究 中 ， 长 
期 以 来 ， 许 多 学 者 把 这 三 种 不 同 的 结构 混同 在 “语法 ”这 个 科目 下 进行 研 
究 ， 并 由 此 而 产生 了 许 许 多 多 的 混乱 。 在 现代 汉语 研究 史上 的 两 次 大 规 
模 的 讨论 (“汉语 词类 问题 ”的 讨论 和 “汉语 主 宾语 问题 * 的 讨论 ) 中 ， 尽 
管 一 些 有 远见 卓识 的 前 非 学 者 ， 己 初步 涉及 这 三 种 结构 之 间 的 某 些 复 杂 
关系 ， 摆 出 了 许多 有 趣 的 语言 事实 ， 但 是 ， 不 少 人 往往 把 这 种 极为 复杂 
的 关系 简单 化 。 在 “汉语 词类 问题 ”的 讨论 中 ， 就 有 人 把 语言 成 分 的 PT- 
结构 与 SF- 结 构 混为一谈 ， 不 知道 同一 PT- 结 构 中 的 成 分 ， 可 以 在 SF- 结 
构 中 具有 不 同 的 句法 功能 ， 结 果 得 出 “汉语 无 词类 ”的 结论 。 在 “汉语 主 
宾语 问题 ”的 讨论 中 ， 又 有 人 则 把 语言 成 分 的 SF- 结 构 与 LS- 结 构 混 为 一 
谈 ， 不 知道 同一 个 SF- 结 构 中 的 成 分 ， 在 LS- 结 构 中 可 以 具有 不 同 的 逻 
辑 语 义 关 系 ， 结 果 他 们 根据 逻辑 语义 关系 来 决定 主语 、 宾 语 等 句法 功能 
成 分 ， 把 “ 施 事 者 ”一 律 定 为 主语 ， 把 “ 受 事 者 ”一 律 定 为 宾语 ， 不 惜 前 足 
适 履 ， 因 果 倒 置 ， 弄 得 汉语 语法 体系 犹如 一 团 乱 及 ， 令 人 望 而 生 豚 。 这 
种 语法 研究 所 得 出 的 种 种 “语法 规律 "， 尤 其 不 适合 于 在 汉语 的 信息 处 理 
工作 中 使 用 ， 为 了 还 汉语 语法 本 来 的 面目 ， 必 须 首先 明确 地 区 分 PT- 结 
构 、SF- 结 构 和 LS- 结 构 这 三 种 不 同 的 结构 ， 研 究 出 它们 各 自 的 特点 和 
规律 ， 然 后 再 进一步 研究 这 三 种 结构 之 间 的 各 种 极为 错综复杂 的 关系 ， 
只 有 这 样 ， 才 有 可 能 正确 地 解释 汉语 结构 的 规律 ， 给 汉语 的 研究 理 出 可 





























循 的 头绪 来 。 这 个 问题 不 仅 对 于 术语 学 的 研究 ， 而 且 对 于 整个 的 汉语 研 
jb, fik FECE. 


首先 ， 我 们 来 研究 汉语 术语 中 的 PT- 结 构 与 SF- 结 构 之 间 的 关系 。 


汉语 术语 中 的 PT- 结 构 与 SF- 结 构 有 一 一 对 应 之 处 ， 亦 有 许多 不 一 
一 对 应 之 处 ， 它 们 之 间 并 不 存在 同 构 关 系 CGisomorphism) . 


汉语 术语 中 PT- 结 构 与 SF- 结 构 意 义 对 应 的 情况 : 


(1) QA+N o ES Clin: “一 元 / 算 子 ”) 

ADJ+N = EPA CPG: “绝对 /误差 ) 

NA+N 一 定 中 式 〈 例 如 : “对 称 /误差 ) 

NQA+N - 定 中 式 《〈 例 如 :“ 异 /元 件 ”) 

AP+NP = EPR CGH: “信息 量 的 /二 进 制 单位 >”) 
(2) ADV+V -JRPA CPM: “再 /启动 ”) 

QA-*V 一 状 中 式 ( 例 如 : “多 重 /穿孔 ”) 

PP+VP 一 状 中 式 〈 例 如 :“ 五 中 / 取 二 ”) 


在 汉语 的 术语 中 ， 有 不 少 术 语 是 无 玻 义 的 。 这 些 无 蚊 义 术语 的 存 
在 ， 使 得 汉语 术语 可 能 正确 无 误 地 执行 其 交际 功能 。 








但 是 ， 由 于 PT- 结 构 与 SF- 结 构 不 存在 同 构 关 系 ， 在 不 少 的 场合 ， 
从 PT- 结 构 到 SF- 结 构 存 在 着 一 对 多 的 情况 。 








例如 ，V+N 这 个 PT- 结 构 ， 其 SF- 结 构 可 以 是 述 宾 式 (“ 取 / 比 例 
R”), tub En CHE SS/BOO 。 因 此 ， 同 一 个 “V+N” 的 PT- 结 
构 ， 就 可 能 形成 兼 具 述 宾 式 和 定 中 式 功 能 的 SF- 结 构 。 例 如 ，“ 沪 入 / 模 
块 * 这 个 术语 由 V+N 组 成 ， 可 以 解释 为 “站 入 了 某 一 个 模块 ”( 述 宾 


Th) ， 也 可 以 解释 为 < 具有 可 以 被 次 入 的 性 质 的 模块 ”( 定 中 式 ) ， 同 一 
个 术语 兼 具 述 宾 式 和 定 中 式 的 功能 ， 产 生 了 牙 义 。 


又 如 ，“V+V” 这 个 PT- 结 构 ， 其 SF- 结 构 可 以 是 联 谓 式 (“ 译 / 
Ep") ， 也 可 以 是 状 中 式 (“ 飞 / 击 *) ， 也 可 以 是 述 宾 式 (“ 受 /保护 ”) ， 
也 可 以 是 述 补 式 (“ 读 /出 ”) ， 因 此 ， 同 一 个 V+V 的 PT- 结 构 ， 就 可 能 形 
成 兼 具 多 种 句法 功能 的 SF- 结 构 。“ 改 变 / 转 储 ”这 个 术语 由 V+V 组 成 ， 其 
含义 可 以 解释 为 “改变 某 种 转 储 ”( 述 宾 式 ) ， 也 可 以 解释 为 “ 按 改变 的 
方式 ， 对 已 经 改变 的 存储 位 置 进行 转 储 ”( 状 中 式 ) 。 这 样 , “改变 / 转 
储 ” 这 个 术语 就 有 了 靶 义 。 








PT- 结 构 与 SF- 结 构 不 一 一 对 应 的 情况 ， 在 汉语 的 术语 中 并 不 少 
见 ， 有 必要 加 以 认真 的 过 细 的 研究 。 





当 一 个 PT- 结 构 对 应 于 一 个 以 上 的 SF- 结 构 时 ， 就 有 可 能 对 这 个 PT- 
结构 的 句法 功能 作出 一 种 以 上 的 不 同 解释 ， 这 时 ， 融 说 这 个 PT- 结 构 是 
潜在 歧义 结构 (potential ambiguous structure) 。 之 所 以 说 是 “潜在 层 
义 ”， 是 因为 在 这 个 PT- 结 构 中 ， 当 用 词汇 单元 来 代 蔡 词类 标记 时 ， 这 种 
蚊 义 有 可 能 继续 保持 ， 也 有 可 能 得 到 消除 ， 因 而 这 种 歧义 是 潜在 的 而 不 
是 现实 的 ， 它 只 具有 了 上 攻 义 的 可 能 性 ， 但 是 还 不 一 定 上 只 有 歧义 的 现实 
性 。 





例如 ，V+N 这 一 个 PT_ 结 构 就 是 潜在 歧义 结构 ， 它 具有 “ 述 宾 一 定 中 
潜在 歧义 ”， 简 称 为 “ 述 宾 一 定 中 歧义 ”， 在 加 入 词汇 单元 时 ， 这 种 潜在 
歧义 有 可 能 保持 ， 也 有 可 能 消除 。 


当 V=“ 取 ”，N=“ 比 例 尺 * 时 ， 由 于 这 两 个 单词 的 词汇 意义 的 制 
约 , “比例尺 ”在 词汇 意义 上 不 能 接受 “ 取 ” 的 修饰 ， 排 除了 定 中 式 之 可 


能 ， 只 能 解释 为 一 个 述 宾 式 ， 监 义 消 除 , “ 取 比 例 矿 ?未 能 成 为 一 个 现实 
IE CASA. 

Va“ ii”, N=“BO I, BIG READ ELE XA, "5 
mi FE WLI MEARE BO ARIS, HRERL HY HE, KAER 
ASE SU, BOOB, "Eu BOX — ARTE AR BE BOA ELSE FY Dc AY « 








当 V=“ 分 割 "，N=“ 字 符 " 时 ， 由 于 在 词汇 意义 上 ，* 字 符 " 可 以 被 分 
割 ， 也 可 以 具备 < 分 割 "这 种 特性 ， 因 此 ， 潜 在 歧义 不 能 消除 ， 并 转化 为 
现实 的 歧义 ， 形 成 具有 “ 述 宾 一 定 中 歧义 * 的 现实 的 歧义 结构 。 由 此 可 以 
看 出 ， 在 还 没有 用 词汇 单元 来 代 蔡 PT_ 结 构 中 的 词类 标记 时 ，PT- 结 构 还 
只 有 洪 在 的 可 能 性 ， 这 种 歧义 只 能 是 “潜在 歧义 ”。 





应 该 说 明 的 是 , “的 字 结 构 ” 利 “介词 结构 ?是 两 种 特殊 的 PT- 结构 ， 
它们 不 能 直接 与 SF- 结构 发 生 对 应 关系 ， 只 是 在 它们 与 其 它 的 单词 或 词 
组 类 型 成 分 构成 一 个 更 大 的 PT- 结 构 之 后 ， 才 能 作为 这 个 更 大 的 PT- 结 
构 的 一 部 分 与 SFE- 结 构 发 生 对 应 关系 。 例 如 ,“ 抉 间 / 间 隔 ” 这 个 术语 中 
的 “ 块 间 ”是 一 个 介词 结构 ， 这 个 介词 结构 不 能 单独 与 SF- 结 构 对 应 ， 而 
只 能 作为 “ 块 间 结构 ”这 个 更 大 的 PT- 结 构 的 一 部 分 ， 与 “ 定 中 式 ” 这 个 SF- 
结构 发 生 对 应 关系 ， 作 为 “ 定 中 式 ” 这 个 SF- 结 构 的 定语 部 分 。 又 如 ，“ 对 
数 的 首 数 ”这 个 术语 中 的 “对 数 的 ”是 一 个 “的 字 结 构 ”( 可 以 把 它 看 成 
AP) ， 这 个 “的 字 结 构 ” 不 能 单独 与 SF- 结 构 发 生 对 应 关系 ， 而 只 能 作 
为 “对 数 的 首 数 ” 这 个 更 大 的 PT- 结 构 的 一 部 分 ， 与 “ 定 中 式 ” 这 个 SF- 结 构 
发 生 对 应 关系 ， 作 为 其 中 的 定语 部 分 。 情 态 动词 与 动词 形成 的 PT- 结 构 
MV+V， 数 词 与 量词 形成 的 PT- 结 构 CtL， 连 词 与 名 词 形 成 的 PT- 结 构 
CJ+N， 它 们 的 结合 都 十 分 紧密 ， 它 们 都 不 能 直接 与 SF- 结 构 发 生 对 应 关 
系 ， 而 只 能 作为 更 大 的 PT- 结 构 的 一 部 分 ， 参 与 到 更 大 的 PT- 结 构 中 
去 ， 才 能 与 SF- 结 构 发 生 对 应 关系 。 例 如 ,， “可 擦 存储 器 ”这 个 术语 中 
























































的 “可 控 ”， 其 PT- 结构 为 MV+V， 这 个 PT- 结构 不 能 直接 与 SF- 结构 发 生 
关系 ， 当 它 与 “存储 器 ”这 个 名 词 一 起 ， 组 成 一 个 更 大 的 PIT- 结 构 VP+N 之 
后 ， 才 能 与 定 中 式 这 个 SF- 结 构 发 生 关 系 ， 作 为 这 个 SF- 结 构 的 定语 。 
又 如 , “两 倍 寄 存 器 ”这 个 术语 中 的 “两 倍 ”， 其 PT- 结 构 为 C+L， 这 个 PT- 
结构 不 能 直接 地 与 SF- 结 构 发 生 对 应 关系 ， 当 它 与 “寄存 器 ”这 个 名 词 一 
起 ， 组 成 一 个 更 大 的 PT- 结构 CLP+N 之 后 ， 才 能 与 定 中 式 这 个 SF- 结构 
发 生 对 应 关系 ， 作 为 这 个 SF- 结构 中 的 定语 。 再 如 ,， “算术 和 逻辑 〈 运 
算 ) ”这 个 术语 中 的 < 和 逻辑 "， 其 PT_ 结构 为 CJ+L， 这 个 PT-_ 结 构 也 不 能 
直接 与 SF- 结构 发 生 关 系 ， 当 它 与 它 前 面 的 “算术 ”这 个 名 词 在 一 起 ， 组 
成 一 个 更 大 的 PT- 结 构 N+NP 之 后 ， 才 能 与 联 体 式 这 个 SF- 结 构 发 生 关 
系 ， 作 为 这 个 SF- 结 构 中 平行 体 词 的 一 部 分 。 这 些 特殊 问题 ， 由 于 在 传 
统 的 汉语 语法 研究 中 没有 很 好 地 解决 ， 在 汉语 术语 的 潜在 歧义 研究 中 ， 
只 好 把 它们 作为 特殊 情况 来 处 理 了 。 
































当 汉 语词 组 类 型 术语 中 的 PT- 结 构 与 SF- 结 构 不 一 一 对 应 时 ， 就 会 
产生 潜在 歧义 。 汉 语 术 语 中 的 潜在 歧义 结构 主要 有 以 下 几 类 : 





一 、 述 宾 一 定 中 歧义 : 下 列 的 PT- 结 构 会 发 生 “ 述 宾 一 定 中 歧义 ”。 





CG) V+N: 例如 ,“ 触 发 /电路 ”， 其 字面 含义 可 以 解释 为 "触及 了 共 
TER” GASES) ， 也 可 以 解释 为 "具有 触发 性 质 的 电路 ”《〈 定 中 
式 ) ， 是 开 焦 监 义 结 构 。 但 是 , “编制 /程序 ?只 能 解释 为 "编制 茶 种 程 
子 ”， 是 述 宾 式 , “保留 / 字 ” 只 能 解释 为 “保留 的 字 ”， 是 定 中 式 ， 淤 在 攻 
义 消失 。 

















(2) V+NQA: 例如 , “搜索 /顺序 ”， 其 字面 含义 可 以 解释 为 “搜索 
某 种 顺序 ”( 述 宾 式 ) ， 也 可 以 解释 为 “搜索 的 顺序 ”〈 定 中 式 ) ， 是 寞 
焦 攻 义 结构 。 但 是 ,“ 排 /顺序 ”只 能 解释 为 “ 排 茶 种 顺序 ”， 是 述 宾 























式 ,“ 工 作 /顺序 ”只 能 解释 为 “工作 的 顺序 ”， 是 定 中 式 ， 潜 在 歧义 消失 。 





(3) AV«N: 例如 , “固定 /存储 占 *， 其 字面 含义 可 以 解释 为 “固定 
a Rae” GRE) ， 也 可 以 解释 为 “固定 的 存储 器 ”( 定 中 式 )， 
古 寞 焦 歧 义 结构 。 但 是 ,“ 固 定 / 频 度 ”只 能 解释 为 “固定 的 频 度 ”， 是 定 中 
式 ， 潜 在 歧义 消失 。 








(4) AV+NP: 例如 ,“ 固 定 /函数 发 生 器 "， 其 字面 合 义 可 以 解释 
为 “固定 某 种 函数 发 生 器 ”( 述 宾 式 ) ， 也 可 以 解释 为 “固定 的 函数 发 生 
器 ”〈 定 中 式 ) ， 是 异 焦 歧 义 结 构 。 但 是 , “固定 / 切 分 原则 ”只 能 解释 
为 “固定 的 切 分 原则 ， 是 定 中式 ， 潜 在 歧义 消失 。 这 里 ，“ 函 数 发 生 
器 * 和 “ 切 分 原则 ”都 是 名 词 词组 ， 而 不 是 单个 的 名 词 。 





(5) NV+N: 例如 ,， “转移 /指令 ”， 其 字面 含义 可 以 解释 为 “转移 / 汞 
MES” GRR) ， 也 可 以 解释 为 “转移 的 指令 ”( 定 中 式 ) ， 是 异 焦 
歧义 结构 。 但 是 ，“ 转 移 /方式 ”只 能 解释 为 “转移 的 方式 "， 是 定 中 式 ， 潜 
在 歧义 消失 。 


(60 VP+N: 例如 ,“ 直 接 插入 / 子 程序 ”"， 其 字面 含义 可 以 解释 
为 “直接 插入 茶 个 子 程序 ”(〈 述 宾 式 ) ， 也 可 以 解释 为 “直接 插入 的 子 程 
序 ”( 定 中 式 ) ， 是 异 焦 攻 义 结构 。 但 是 ,“ 再 局 动 /条 件 ” 只 能 解释 为 "再 
局 动 的 条 件 ”， 是 定 中 式 ， 潜 在 歧义 消失 。 


(7) NVP+N: 例如 , “输出 输入 /过 程 "， 其 字面 含义 可 以 解释 
为 “输出 输入 某 种 过 程 ”( 述 宾 式 ) ， 也 可 以 解释 为 “输出 输入 的 过 
程 ”〈 定 中 式 ) ， 是 异 焦 歧 义 结构 。 但 是 , “设备 控制 /字符 ”只 能 解释 
为 “用 于 设备 控制 的 字符 ”， 是 定 中 式 ， 湾 在 歧义 消失 。 





(80 V+NP: 例如 , “联合 /信息 量 ”， 其 字面 含义 可 以 解释 为 “联合 


某 些 信息 量 ”( 述 宾 式 ) ， 也 可 以 解释 为 "联合 的 信息 量 ”( 定 中 式 ) ， 
是 异 焦 歧义 结构 。 但 是 ，“ 监 控 /穿孔 机 ”只 能 解释 为 “用 于 监控 的 穿孔 
机 ”， 是 定 中 式 ， 潜 在 歧义 消失 。 


(9) NV+NP: 例如 , “转移 /信息 量 *”， 其 字面 含义 可 以 解释 为 “ 转 
PERRE” CORRA) ， 也 可 以 解释 为 “转移 的 信息 量 ”( 定 中 
式 ) ， 是 异 焦 卜 义 结 构 。 但 是 ，“ 服 务 / 例 行 程序 ”只 能 解释 为 “用 于 服务 
的 例 行 程序 ”， 是 定 中 式 ， 潜 在 歧义 消失 。 











(10) NV+NVP: fun, “控制 /转移 指令 ”， 其 字面 含义 可 以 解释 
为 “控制 某 种 转移 指令 ”( 述 宾 式 ) ， 也 可 以 解释 为 用 于 控制 的 转移 指 
令 ”( 定 中 式 ) ， 是 异 焦 歧 义 结构 。 但 是 , “通讯 /控制 字符 ”只 能 解释 
为 “用 于 通讯 的 控制 字符 ”， 是 定 中 式 ， 湾 在 歧义 消失 。 





二 、 主 谓 一 状 中 歧义 : 下 列 PT- 结 构 会 发 生 主 谓 一 状 中 歧义 。 


(1) N+V: 例如 ,“ 机 器 /阅读 "， 其 字面 含义 可 以 解释 为 "由 机 器 来 
阅读 ”〈 主 谓 式 ,“ 机 器 ”是 施 事 ) ， 也 可 以 解释 为 " 按 机 器 的 方式 来 向 
读 ”( 状 中 式 ) ， 是 同 焦 卜 义 结构 。 但 是 ,，“ 系 统 / 测 试 " 只 能 解释 为 “由 系 
统 来 测试 ”， 只 能 是 主 谓 式 , “系统 ”是 施 事 , “边缘 / 罕 孔 ”只 能 解释 为 “在 
边缘 处 来 进行 穿孔 ”， 只 能 是 状 中式 ， 潜 在 歧义 消失 。 


(2) C+V: 例如 , “四舍五入 ”中 的 “四 / 舍 ”"。 其 字面 含义 可 以 解释 
为 “四 被 舍 去 了 ”( 主 请 式 ,“ 四 ”是 受 事 ) ， 也 可 以 解释 为 “ 当 小 于 或 等 
于 四 的 时 候 就 进行 舍 入 运算 ”( 状 中 式 ) ， 是 同 焦 蚊 义 结构 。 但 是 , “二 
五 /混合 "只 能 解释 为 “用 与 二 和 五 有 关 的 数 来 混合 "， 只 能 是 状 中 式 ， 潍 
在 歧义 消失 。 














(3) N+VP: GH, “标记 / 读 出 ”的 字面 含义 只 能 是 “标记 被 读 出 





了 ”， 只 能 是 主 谓 式 ; “ 磁 银 线 存 储 器 ”的 “ 磁 / 镀 线 ?只 能 解释 为 用 磁 膜 的 
方式 来 镀 线 ， 只 能 是 状 中 式 。 这 次 明 ，N+VP 这 一 个 格式 具有 “ 主 谓 一 状 
中 ”的 潜在 卜 义 ， 但 是 ， 当 在 具体 的 术语 “标记 / 读 出 ”( 主 谓 式 ) 和 "和 磁 / 
Pee” CRPIO 中 ， 这 种 潜在 歧义 消失 了 。 











(4) C+NV: 例如 ， 在 “二 输入 加 法 需 ?” 中 的 “二 /输入 ”， 其 字面 合 
义 可 以 解释 为 “二 个 数据 被 输入 了 ”( 主 谓 式 ) ， 又 可 以 解释 为 “ 按 二 个 
数据 的 方式 来 进行 输入 ”( 状 中 式 ) ， 因 而 C+NV 就 成 了 潜在 皮 义 结构 。 
我 们 在 中 文 术 语 的 数据 库 中 ， 还 未 友 现 这 种 结构 中 的 潜在 卜 义 消失 的 例 
子 。 这 说 明 ， 潜 在 收 义 结构 中 的 潜在 歧义 ， 也 可 能 不 会 消失 ， 在 同类 格 
式 的 术语 中 都 始终 保持 着 。 





(5) NP+VP: 例如 , “微型 计算 机 /联机 监视 ”的 字面 含义 ， 可 以 解 
释 为 “由 微型 计算 机 来 联机 监视 ”〈 主 谓 式 , “微型 计算 机 ?是 施 事 ) tH 
可 以 解释 为 “用 微型 计算 机 为 工具 进行 联机 监视 ”( 状 中 式 ) ， 是 同 焦 歧 
义 结构 。 但 是 ,“ 计 算 机 程序 /上 自动 设计 ?只 能 解释 为 “计算 机 程序 被 目 动 
设计 了 ”(“ 计 算 机 程序 ”是 受 事 ) ， 是 主 谓 式 ;“ 请 求 式 / 调 页 ”只 能 解释 
为 “ 按 请 求 式 来 调 页 ”， 是 状 中 式 ， 潜 在 歧义 消失 。 








三 、 定 中 一 状 中 歧义 : 下 列 PT- 结 构 会 产生 定 中 一 状 中 歧义 。 





(1) QA+NV: 例如 ,“ 实 时 /运算 ”的 字面 含义 ， 可 以 解释 为 “实时 
的 运算 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 实 时 的 方式 来 运算 ”( 状 中 
Th) ， 是 同 焦 卜 义 结构 。 








(2) NA+NV: 例如 , “等 价 /运算 ”的 字面 含义 ， 可 以 解释 为 “等 价 
的 运算 ”《〈 定 中 式 ) ， 又 可 以 解释 为 “ 按 等 价 的 方式 来 运算 ”〈 状 中 
Th) ， 是 同 焦 卜 义 结构 。 


(3) ADJ+NV: 例如 , “简单 /缓冲 ”的 字面 信义， 可 以 解释 为 “人 简单 
的 缓冲 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 简单 的 方式 来 缓冲 ”( 状 中 
Th) ， 是 同 焦 歧 义 结构 。 


(4) ADV+NV: 例如 , “立即 / 编 址 ”的 字面 含义 ， 可 以 解释 为 “ 立 
即 的 编 址 ”( 定 中 式 ) ， 又 可 以 解释 为 “立即 地 编 址 ”〈 状 中 式 ) ， 是 同 
焦 歧 义 结构 。 


(5) VP+NV: 例如 ,“ 无 循环 /编码 ”的 字面 含义 ， 可 以 解释 为 “无 
循环 的 编码 ”( 定 中 式 ) ， 又 可 解释 为 “ 按 无 循环 的 方式 来 进行 编 
码 ”( 状 中 式 ) ， 是 同 焦 歧 义 结构 。 

(6) AP+NV: 例如 ,“ 自 相对 / 编 址 ”的 字面 含义 ， 可 以 解释 为 “ 自 
相对 的 编 址 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 自 相对 的 方式 来 进行 编 
HE? CORFA) ， 是 同 焦 歧 义 结构 。 








(7) QA+NVP: 例如 , “自动 /顺序 处 理 ” 的 字面 含义 ， 可 以 解释 
为 “自动 的 顺序 处 理 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 自 动 的 方式 来 进行 
顺序 处 理 ”( 状 中 式 ) ， 是 同 焦 歧 义 结构 。 





(80 AV+NVP: 例如 , “集中 /数据 处 理 ” 的 字面 含义 ， 可 以 解释 
为 “集中 的 数据 处 理 ”( 定 中 式 ) ， 又 可 以 解释 为 “ 按 集中 的 方式 进行 数 
AAE” CRER) ， 是 同 焦 歧义 结构 。 





(9) VQA+NV: 例如 , “无条件 / 转 移 指令 ”的 字面 含义 ， 可 以 解释 
为 “无 条 件 的 转移 指令 ”( 定 中 式 ) ， 又 可 以 解释 为 “无 条 件 地 来 进行 转 
移 指令 ”( 状 中 式 ) ， 是 同 焦 歧义 结构 。 


这 些 定 中 一 状 中 潜在 收 义 结构 ， 在 上 述 的 各 个 词组 型 术语 中 ， 均 保 


持 了 原 有 的 定 中 一 状 中 歧义 ， 这 也 许 是 由 于 定 中 一 状 中 歧义 是 同 焦 结 
构 ， 上 收 义 对 于 词组 型 术语 的 理解 并 无 多 大 的 障碍 ， 因 此 ， 潜 在 卜 义 结构 
都 转化 成 了 现实 的 上 改 义 结构 。 


四 、 述 宾 一 状 中 歧义 : 仅 有 V+VP 这 种 PT- 结 构 存 在 述 宾 一 状 中 此 
义 。 


例如 , “破坏 / 读 出 ”的 字面 含义 ， 可 以 解释 为 “破坏 这 种 读 出 ”( 述 与 
XO ， 又 可 以 解释 为 “ 按 破 坏 的 方式 进行 读 出 ”《〈 状 中 式 ) ， 是 腊 焦 歧义 
结构 。 但 是 ,“ 归 并 / 排 顺 序 ” 只 能 解释 为 “ 按 归 并 的 方式 来 排 顺序 ”， 是 状 
HS, FETE BOGE K 





五 、 主 谓 一 定 中 歧义 : 下 列 PT- 结 构 会 产生 主 谓 一 定 中 歧义 。 


(1) NP+NV: 例如 , “事务 数据 /处 理 ” 的 字面 含义 ， 可 以 解释 
为 “事务 数据 被 处 理 了 ”( 主 谓 式 ) ， 又 可 以 解释 为 “事务 数据 的 处 
理 ”( 定 中 式 ) ， 是 同 焦 歧义 结构 。 


(2) NP+NVP: 例如 , “计算 机 /辅助 管理 ”的 字面 含义 ， 可 以 解释 
为 “由 计算 机 来 辅助 管理 ”( 主 谓 式 ) ， 又 可 以 解释 为 “计算 机 的 辅助 管 
理 ”( 定 中 式 ) ， 是 同 焦 结构 。 


这 些 主 请 一 定 中 潜在 卜 义 结构 ， 在 上 述 的 词组 型 术语 中 ， 均 保持 了 
原 有 的 主 请 一 定 中 歧义 ， 潜 在 卜 义 结构 部 转化 成 了 现实 的 卜 义 结构 。 


六 、 联 谓 一 状 中 歧义 : 仅 有 VP+VP 这 种 PT- 结 构 存 在 联 谓 一 状 中 歧 
义 。 例 如 ， 

“四 侈 / 五 入 ”的 字面 含义 ， 可 以 解释 为 “四 侈 并 且 五 入 ”， 是 联 谓 
式 ，“ 非 破坏 / 读 出 ”的 字面 含义 ， 可 以 解释 为 “ 按 非 破坏 的 方式 来 读 出 ”， 





是 状 中 式 。 这 样 ，VP+VP 这 个 结构 ， 既 可 以 为 联 谓 式 ， 又 可 以 为 状 中 
式 ， 故 有 联 谓 一 状 中 潜在 靶 义 ， 是 异 焦 琉 义 结构 。 当 这 个 PIT- 结构 为 “四 
舍 / 五 入 ”时 ， 只 能 解释 为 联 谓 式 ， 不 能 解释 为 状 中 式 ， 潜 在 卜 义 消失 
T; 当 这 个 PT- 结 构 为 * 非 破坏 / 读 出 "时 ， 只 能 解释 为 状 中 式 ， 不 能 解释 
为 联 谓 式 ， 洪 在 歧义 也 消失 了 。 


七 、 联 体 一 定 中 歧义 : 仅 有 N+N 这 种 PT- 结构 存在 联 体 一 定 中 歧 
X. fen, “字母 /数字 ”的 字面 含义 ， 可 以 解释 为 “字母 和 数字 ”， 是 联 谓 
Th, “MASK AIF A ARRAN A ETEK”, ERE ASK, 
此 ，PT- 结 构 N+N 就 有 “ 联 体 一 定 中 歧义 ”， 当 这 个 PT- 结 构 为 “字母 / 数 
字 ” 时 ， 只 能 解释 为 联 体 式 ， 不 能 解释 为 定 中 式 ， 潜 在 卜 义 消失 了 ， 妆 
这 个 PIT- 结构 为 “ 磁 / 涉 ”时 ， 只 能 解释 为 定 中 式 ， 不 能 解释 为 联 体 式 ， 潜 
TE IBA . 





八 、 主 亩 一 定 中 一 状 中 歧义 :下面 的 PT- 结 构 会 产生 主 谓 一 定 中 一 
状 中 歧义 。 


(1) NENV: SO, “条件 /转换 * 的 字面 含义 ， 可 以 解释 为 “条 件 被 
转换 了 ”( 主 谓 式 ) ， 又 可 以 解释 为 “条 件 的 转换 ”( 定 中 式 ) ， 还 可 以 
解释 为 “ 按 条 件 来 转换 ”( 状 中 式 ) ， 都 是 后 焦 型 结构 ， 所 以 ， 它 们 是 同 
焦 歧义 结构 。“ 信 息 /处 理 ” 的 字面 含义 ， 可 以 解释 为 “信息 被 处 理 了 ”( 主 
谓 式 ) ， 又 可 以 解释 为 “信息 的 处 理 ”〈 定 中 式 ) ， 也 是 同 焦 歧 义 结构 ， 
但 状 中 式 的 潜在 歧义 消失 了 。 “消息 / 宿 ” 的 字面 含义 ， 只 能 解释 为 消息 的 
所 和 鸽 ， 即 通讯 系统 中 接收 消息 的 那 一 部 分 ， 只 能 是 定 中 式 ， 变 成 了 无 旷 
义 结构 ， 主 谓 式 和 状 中 式 的 潜在 歧义 部 消失 了 。 


(2) N+NVP: 例如 ,“ 条 件 / 转 移 指令 ”的 字面 含义， 可 以 解释 
为 “由 条 件 来 转移 指令 ”( 主 谓 式 ,“ 条 件 ” 是 施 事 主语 ) ， 也 可 以 解释 


为 “条 件 的 转移 指令 ”( 定 中 式 ) ， 还 可 以 解释 为 “ 按 条 件 来 转移 指 

S” RPR) ， 是 同 焦 歧 义 结构 。* 光 学 /字符 识别 ”的 字面 含义 ， 可 以 
解释 为 “光学 的 字符 识别 ”( 定 中 式 ) ， 也 可 以 解释 为 “ 按 光 学 的 方式 来 
进行 字符 识别 ”( 状 中 式 ) ,但 主 谓 式 的 潜在 皮 义 消失 了 。 


(3) NVP+NV: 例如 ,“ 组 传输 /结束 ”的 字面 信义， 可 以 解释 为 “组 
传输 被 结束 了 ”( 主 谓 式 ,“ 组 传输 ”是 施 事 ) ， 也 可 以 解释 为 “组 传输 的 
结束 ”〈 定 中 式 ) ， 还 可 以 解释 为 “ 按 组 传输 的 方式 结束 ”( 状 中 式 〉， 
古 同 焦 歧 义 结构 。“ 多 数 决 定 /运算 ”的 字面 含义 ， 可 以 解释 为 “多 数 决定 
的 运算 ”《〈 定 中 式 ) ， 也 可 以 解释 为 “ 按 多 数 决 定 的 方式 来 运算 ”( 状 中 
式 ) ， 但 主 请 式 的 潜在 卜 义 消失 了 。 











九 、 述 宾 一 定 中 一 状 中 歧义 ， 下 面 的 PT- 结 构 会 产生 述 宾 一 定 中 一 
状 中 歧义 。 


(1) V+NV: 例如 ,， “延迟 / 编 址 ”的 字面 含义 ， 可 以 解释 为 “延迟 这 
种 编 址 ”( 述 宾 式 ) ， 也 可 以 解释 为 “延迟 的 编 址 ”《〈 定 中 式 ) ， 还 可 以 
解释 为 “ 按 延 迟 的 方式 来 编 址 ”〈 状 中 式 ) ， 其 中 ， 定 中 式 和 状 中 式 是 后 
焦 型 结构 ， 述 宾 式 是 前 焦 型 结构 ， 因 此 ， 这 是 一 种 异 焦 琉 义 结构 。* 迭 
代 / 运 算 ” 的 字面 含义 ， 可 以 解释 为 “迭代 的 运算 >”〈 定 中 式 ) ， 也 可 以 解 
释 为 “ 按 迭 代 的 方式 来 运算 ”(〈 状 中 式 ) ， 但 述 宾 式 的 潜在 歧义 消失 了 。 








(2) AV+NV: 例如 , “重复 /运算 ”的 字面 售 义 ， 可 以 解释 为 “重复 
这 种 运算 ”( 述 宾 式 ) ， 也 可 以 解释 为 “重复 的 运算 ”〈 定 中 式 ) ， 还 可 
以 解释 为 “ 按 重 复 的 方式 来 运算 ”〈 状 中 式 ) ， 这 是 一 种 弄 焦 上 蚊 义 结构 ， 
潜在 歧义 都 转化 为 现实 的 卜 义 。 





(3) V+NVP: 例如 , “链接 /编辑 程序 ”的 字面 含义 ， 可 以 解释 


为 “链接 这 种 编辑 程序 ”( 述 宾 式 ) ， 也 可 以 解释 为 “链接 的 编辑 程 
序 ”( 定 中 式 ) ， 还 可 以 解释 为 “ 按 链 接 的 方式 来 编辑 程序 ”〈 状 中 
式 ) ， 这 是 一 种 异 焦 监 义 绩 构 ， 洪 在 歧义 都 转化 成 了 现实 的 监 义 。 








(4) AV+NVP: 例如 , “集中 /数据 处 理 ” 的 字面 含义 ， 可 以 解释 
为 “集中 这 种 数据 处 理 ”( 述 宾 式 ) ， 也 可 以 解释 为 “集中 的 数据 处 
理 ”〈 定 中 式 ) ， 还 可 以 解释 为 “ 按 集 中 的 方式 \ 进 行 数据 处 理 ”〈 状 中 
式 ) ， 这 是 一 种 异 焦 歧 义 结构 ， 洪 在 歧义 转化 成 了 现实 的 歧义 。 





十 、 联 谓 一 状 中 一 述 宾 一 述 补 芒 义 : 仅 有 V+V 这 种 PT- 结 构 存 在 “ 联 
谓 一 状 中 一 述 宾 一 述 补 攻 义 ?。 例 如 , “改变 / 转 储 ” 的 字面 含义 ， 可 以 解 
释 为 “ 按 改变 的 方式 进行 转 储 ”( 状 中 式 ) ， 也 可 以 解释 为 “改变 这 种 转 
储 ”( 述 宾 式 ) ， 是 状 中 一 述 宾 的 卜 义 结构 。“ 译 / 印 ” 的 字面 含义 只 可 以 
解释 为 < 又 译 又 印 ” 或 “ 译 而 且 印 "， 是 联 请 式 结构 。“ 读 /出 ”的 字面 含义 ， 
只 可 以 解释 为 “ 读 得 出 来 "是 述 补 式 结构 。 这 样 ，V+V 这 个 PT- 结 构 就 
具有 了 联 请 一 状 中 一 述 宾 一 述 补 的 潜在 上 收 义 ， 这 是 异 焦 结构 ， 这 种 潜在 
歧义 ， 在 具体 的 词组 型 术语 中 ， 有 的 保持 了 一 部 分 ， 有 的 消失 了 。 





十 一 、 联 谓 一 联 体 一 述 宾 一 定 中 一 状 中 一 主 请 卜 义 : 仪 有 NV+NV 
这 种 PT- 结 构 存 在 联 谓 一 联 体 一 述 宾 一 定 中 一 状 中 一 主 谓 歧 义 。 例 
AW. “输出 输入 ”的 字面 含义 ， 可 以 解释 为 “输出 并 且 输 入 ”( 联 谓 式 )， 
叉 可 以 解释 为 “输出 和 输入 ”( 联 体式 ) ， 是 联 谓 一 联 体 的 歧义 结 
构 。“ 控 制 /操作 ”的 字面 含义 ， 可 以 解释 为 “控制 这 种 操作 ”( 述 宾 式 )， 
叉 可 以 解释 为 “控制 的 操作 ”( 定 中 式 ) 是 述 宾 一 定 中 叔 义 结构 。“ 和 存储/ 
分 配 ” 的 字面 含义 ， 可 以 解释 为 “存储 的 分 配 ”( 定 中 式 ) ， 又 可 以 解释 
为 “ 按 存 储 的 方式 来 分 配 ”( 状 中 式 ) ， 还 可 以 解释 为 “存储 被 分 配 
了 ”( 主 谓 式 ,“ 和 存储 ”是 受 事 ) ， 是 定 中 一 状 中 一 主 谓 的 歧义 结构 。 这 
样 ，NV+NV 这 个 PIT- 结构 就 具有 了 联 谓 一 联 体 一 述 宾 一 定 中 一 状 中 一 主 





谓 潜在 歧义 ， 这 是 异 焦 歧 义 结构 。 


汉语 术语 中 的 潜在 歧义 结构 可 总 结 如 下 : 


潜在 歧义 结构 的 类 型 PT- 结 构 
IR FR FE HL V+N 

述 宾 一 定 中 牙 义 V+NQA 
述 宾 一 定 中 牙 义 AV+N 
述 宾 一 定 中 攻 义 AV+NP 
IB Fe—FE PBEM NV+N 
IB Fe—FE PBEM VP+N 
IR FR— FE PI x NVP+N 
述 宾 一 定 中 攻 义 V+NP 
述 宾 一 定 中 攻 义 NV+NP 
IR FR FE P A NV+NVP 
述 宾 一 定 中 歧义 NVP+NP 
TRB N+V 
TRB C+V 
主 谓 一 状 中 歧义 N+VP 
主 谓 一 状 中 歧义 C+NV 


定 中 一 状 中 歧义 QA+NV 


定 中 一 状 中 上 收 义 
we HAR HH BEC 
XE HAR HP BEC 
XE FEMA HP B X 
XE PTR B X 
定 中 一 状 中 上 收 义 
XE HAR B X 
we HAR BEC 
XE TRH B X 
IB FETA HF IE 
主 谓 一 定 中 歧义 
主 谓 一 定 中 歧义 
联 体 一 定 中 歧义 
WE AA rj CX 
ERE PTR pul X 
FEV — cE PTR X 
FEV — rE PTR HIE X 
XS 3«—3E HTK HF IE X 


NA+NV 
A+NV 
AD+NV 
VP+NV 
QA+NVP 
AV+NVP 
AP+NV 
VQA+NV 
VP+NVP 
V+VP 
NP+NV 
NP+NVP 
N+N 
VP+VP 
N+NV 
N+NVP 
NVP+NV 


V+NV 


XS 3«—3E rH —A4A rp X AV+NV 


述 宾 一 定 中 一 状 中 歧义 V+NVP 
述 宾 一 定 中 一 状 中 歧义 AV+NVP 
联 谓 一 状 中 一 述 宾 一 述 补 卜 义 V+V 


联 谓 一 联 体 一 述 宾 一 定 中 一 状 中 一 主 请 歧义 NV+NV 


潜在 卜 义 是 由 于 汉语 术语 的 PT- 结 构 与 EFS- 结构 之 间 不 存在 一 一 对 
应 天 系 而 产生 的 ， 而 这 种 不 一 一 对 应 的 情况 ， 正 是 汉语 语法 的 真正 特点 
之 所 在 。 朱 德 辕 在 《语法 答 问 》 一 书 中 谈 到 汉语 语法 的 “真正 的 特点 ?时 
Hi: 汉语 语法 的 特点 , “要 是 细 大 不 捐 的 话 ， 可 以 举 出 许多 条 来 。 要 
征 拒 关系 全 局 的 重要 方面 来 说 ， 主 要 只 有 两 条 。 一 条 是 汉语 词类 跟 句 法 
成 分 (就 是 通常 所 说 的 句子 成 分 ) 之 间 不 存在 一 一 对 应 关系 ; 二 是 汉语 
句子 的 构造 原则 跟 词组 的 构造 原则 基本 上 是 一 致 的 ”。 朱 德 巾 这 里 所 说 
的 汉语 语法 的 第 一 个 真正 的 特点 ， 即 “汉语 词类 跟 句 法 成 分 之 间 不 存在 
一 一 对 应 关系 ”， 就 是 汉语 术语 中 存在 潜在 监 义 的 根本 原因 。 正 因为 这 
古 汉语 语法 的 真正 特点 ， 所 以 ，“ 潜 在 卜 义 论 ” 的 研究 ， 就 必定 是 汉语 术 
语 结构 分 析 的 关键 之 所 在 ， 在 汉语 的 自然 语言 计算 机 处 理 中 ， 这 是 我 们 
必须 加 以 认真 研究 的 问题 ， 决 不 能 对 这 个 问题 挥 以 轻 心 。 朱 德 巾 指出 的 
汉语 语法 的 第 二 个 真正 的 特点 ， 即 “汉语 句子 的 构造 原则 跟 词 组 的 构造 
原则 基本 上 是 一 致 的 ”， 对 于 汉语 词组 型 术语 的 结构 研究 也 有 指导 意 
义 。 因 为 这 个 特点 意味 着 ， 汉 语词 组 型 术语 的 结构 研究 ， 将 会 大 大 有 助 
于 汉语 句子 结构 的 研究 ， 以 汉语 词组 型 术语 结构 的 自动 分 析 为 目的 而 提 
出 的 “潜在 玻 义 论 ”， 将 有 可 能 在 汉语 句子 结构 的 自动 分 析 中 大 显 身手 。 





























潜在 歧义 结构 反映 的 是 PT- 结 构 的 潜在 歧义 。PT- 结 构 是 由 词组 类 








型 标记 和 词类 标记 构成 的 ， 这 些 标记 是 “类 ”的 标记 ， 而 不 是 具体 的 单词 
的 标记 ， 因 而 PT- 结 构 并 不 是 由 具体 的 词汇 单元 构成 的 术语 的 结构 ， 而 
是 “类 ”的 结构 ， 这 种 “类 ”的 结构 所 反映 出 来 的 卜 义 ， 并 不 是 现实 的 歧 

义 ， 而 只 是 潜在 的 卜 义 。 要 想 了 解 这 种 潜在 的 歧义 古 否 具有 现实 性 ， 只 
有 在 PT- 结 构 中 插入 具体 的 词汇 单元 之 后 才 看 得 出 来 ， 也 束 是 说 ， 词 汇 
单元 的 插入 ， 才 把 PT- 结 构 的 潜在 收 义 溅 活 了 ， 才 使 PT- 结 构 的 潜在 上 收 
义 具备 了 转化 为 现实 歧义 的 可 能 性 。 














另外 ，PT- 结 构 仅 只 是 表示 了 词组 型 术语 的 树 形 图 中 ， 同 一 层级 上 
的 两 个 相 邻 的 树 术 结 点 之 间 词 组 类 型 的 结构 ， 并 不 能 反映 多 层级 的 由 整 
个 树 形 图 所 代表 的 词组 类 型 结构 ， 而 PT- 结 构 及 其 相应 的 SF- 结 构 的 非 
同 构 情况 反映 出 来 的 PT- 结 构 所 具有 的 潜在 歧义 ， 也 仅 只 反映 了 树 形 图 
中 某 一 层级 上 的 潜在 卜 义 ， 并 不 能 代表 整个 树 形 图 的 潜在 歧义 ， 要 想 了 
解 整 个 树 形 图 的 卜 义 情况 ， 只 有 在 研究 了 树 形 图 各 个 层级 上 的 卜 义 情况 
之 后 才 有 可 能 ， 而 要 想 了 解 树 形 图 各 个 层级 上 的 歧义 情况 ， 痛 和 完 必 须 插 
入 词汇 单元 。 





由 此 可 见 ， 词 汇 单元 的 插入 ， 对 于 词组 型 术语 的 歧义 研究 来 说 ， 是 
一 个 至 关 重 要 的 问题 。 





PT- 结 构 只 是 一 个 抽象 的 语法 结构 ， 这 样 的 结构 要 靠 词汇 单元 来 激 
活 ，PT- 结 构 被 插入 的 词汇 单元 激活 之 后 ， 便 成 为 了 具有 具体 的 学 术 含 
义 的 词组 型 术语 ， 这 个 过 程 叫 做 “PT- 结 构 的 实例 化 ”(Instanciation of 
PT-Structure) 。 








PT- 结 构 实 例 化 之 后 ， 便 可 以 判断 PT- 结 构 所 具有 的 潜在 歧义 是 不 
是 会 变 为 现实 的 卜 义 。 也 束 是 说 ， 实 例 化 之 前 的 PT- 结 构 没 有 被 激活 ， 
只 具有 潜在 的 歧义 ， 而 实例 化 之 后 的 PT- 结 构 补 激活 了 ， 才 可 能 具有 现 


实 的 歧义 。 
为 了 研究 具体 的 词组 类 型 术语 是 否 有 上 监 义 ， 可 分 两 步 来 做 : 


(1) 在 表示 有 关 术 语 的 树 形 图 的 前 终极 结 点 下 方 插入 相应 的 词汇 
单元 ， 使 之 成 为 这 个 树 形 图 的 叶子 ， 从 而 使 PT- 结 构 实 例 化 。 


(2) 从 树 形 图 的 叶子 开始 ， 目 叶 向 根 ， 自 拘 回 上 ， 逐 级 研究 各 个 
层级 的 PT- 结 构 潜在 卜 义 情况 ， 观 察 其 是 否 有 可 能 转化 为 现实 的 卜 义 。 
如 果 根 的 两 个 直接 后 裔 结 点 所 形成 的 PT- 结 构 仍 是 有 歧义 的 ， 则 整个 的 
词组 型 术语 就 是 有 歧义 的 ， 这 时 ， 洪 在 的 歧义 结构 也 就 转化 成 了 现实 的 
BO 8T. 











在 PT- 结 构 实例 化 的 过 程 中 ， 当 把 词汇 单元 插入 树 形 图 时 ， 由 于 词 
汇 单元 之 间 词 汇 意义 的 制约 ， 或 者 由 于 词汇 单元 语法 结构 的 影响 ，PT- 
结构 的 潜在 监 义 有 可 能 消失 ， 也 有 可 能 继续 保持 。 在 由 下 而 上 对 多 层次 
的 树 形 图 中 各 个 层次 上 的 PT- 结 构 进 行 解释 时 ， 由 于 各 个 PT- 结 构 之 间 
上 下 文 环 境 的 影响 ，PT- 结 构 所 具有 的 潜在 歧义 也 会 及 生 一 些 新 的 变 
化 。 上 总而言之， 词汇 单元 的 插入 ， 把 抽象 的 PT- 结 构 激 活 了 ， 这 样 ， 
PT- 结 构 实例 化 的 过 程 中 ， 可 以 产生 四 种 不 同 的 树 形 结构 ， 无 上 收 义 结 
构 ， 攻 义 消 除 结构 ， 攻 义 结构 ， 非 法 结构 。 因 此 ， 这 四 种 树 形 结构 才 是 
反映 具体 的 词组 型 术语 卜 义 情况 结构 。 其 中 ， 无 歧义 结构 是 由 无 卜 义 的 
PTI- 结 构 实 例 化 之 后 形成 的 ， 而 歧义 结构 和 上 监 义 消 除 络 构 则 是 由 具有 淤 
在 监 义 的 PIT- 结构 实例 化 之 后 形成 的 ， 非 法 结构 的 PIT- 结构 本 吴 吏 是 不 
合乎 其 含义 或 者 语法 规则 的 ， 这 种 PIT- 结构 不 论 实 例 化 与 个， 都 是 非法 
的 。 














下 面 ， 我 们 来 讨论 这 四 种 不 同 的 树 形 结构 。 


(1) 无 歧义 结构 Cunambiguous structure ) 


无 歧义 结构 中 ， 表 示 词 组 类 型 术语 的 树 形 图 中 的 任何 PT_ 结 构 均 不 
是 潜在 歧义 结构 ， 决 无 产生 歧义 之 可 能 ， 因 而 实例 化 之 后 形成 的 结构 也 
是 没有 歧义 的 。 

例如 , “大 容量 存储 器 ”这 个 术语 ， 在 插入 词汇 单元 之 后 ， 其 树 形 图 
为 : 


A N 存储 器 


大 容量 


图 5.10 ”无 歧义 结构 








目下 而 上 观察 ，A+N 是 一 个 无 上 疏 义 的 PT- 结 构 ， 根 结 点 NP 两 个 直接 
后 裔 形成 的 NP+N 也 是 一 个 无 歧义 结构 ， 所 以 ， 这 个 术语 是 一 个 无 歧义 
结构 。 


(20 歧义 消除 结构 Cambiguity-disappeared structure ) 


表示 词组 类 型 术语 的 树 形 图 中 ， 有 的 PT- 结 构 是 潜在 歧义 结构 ， 但 
是 在 这 些 PT- 结 构 的 实例 化 过 程 中 ， 在 插入 词汇 单元 之 后 ， 由 于 词汇 单 
元 词汇 意义 的 制约 ， 或 者 由 于 各 个 词汇 单元 的 语法 特性 的 相互 影响 ， 排 
除了 叔 义 之 可 能 ， 睹 义 消除 ， 形 成 一 个 歧义 消除 结构 。 


Glo, “面向 问题 语言 ”这 个 术语 ， 插 入 词汇 蛙 元 之 后 ， 其 树 形 图 
为 : 


ÉH] 问题 


图 5.11 歧义 消除 结构 








目下 而 上 观察 ，V+N 这 个 PT- 结 构 有 “ 述 宾 一 定 中 歧义 ?， 是 一 个 淤 
在 歧义 结构 ， 但 插入 了 “面向 ”、“ 问 题 * 等 词汇 单元 之 后 ， 由 于 词汇 意义 
的 制约 , “ 面 问 ?不 可 能 作 “ 问 题 ” 的 定语 ， 排 除了 定 中 式 之 可 能 ，VP+N 
这 个 PT- 结 构 有 “ 述 宾 一 定 中 歧义 ”， 也 是 一 个 潜在 卜 义 结构 ， 但 由 于 在 
VP 中 ， 动 词 V 已 带 有 宾语 “问题 "， 一 般 不 能 再 市 第 二 个 宾语 ， 这 种 语法 
性 质 的 影响 ， 排 除了 述 宾 式 之 可 能 ， 根 结 点 NP 的 两 个 直接 后 窗 VP 和 N 











形成 的 定 中 式 结构 ， 是 一 个 歧义 消除 结构 ， 这 时 ， 在 树 形 图 两 个 层级 上 
的 PT- 结 构 所 具有 的 潜在 疏 义 并 未 转化 为 现实 的 卜 义 结构 。 


(3) 歧义 结构 (ambiguous structure ) 


表示 词组 类 型 术语 的 树 形 图 中 ， 有 的 PT- 结 构 是 潜在 卜 义 结构 ， 在 
PT- 结构 的 实例 化 过 程 中 ， 搬 入 词汇 单元 之 后 ， 词 汇 单元 之 间 的 词汇 意 
义 的 制约 以 及 词汇 单元 语法 功能 的 影响 ， 并 不 足以 消除 这 种 潜在 歧义 ， 
从 而 使 这 种 潜在 上 攻 义 转化 为 现实 的 歧义 。 在 自 下 而 上 地 解释 树 形 图 的 靶 
义 时 ， 如 果 根 结 点 的 两 个 直接 后 裔 组 成 的 PT- 结 构 的 潜在 歧义 仍 未 完全 
消除 ， 那 么 ， 就 可 能 形成 一 个 歧义 消除 结构 。 











当然 ， 在 多 层次 的 树 形 图 中 ， 除 了 根 结 点 的 两 个 直接 后 裔 之 外 的 其 
他 下 层 结 点 的 语法 和 语义 信息 ， 对 于 根 结 反 的 卜 义 也 是 有 影响 的 ， 不 
过 ， 这 种 彼此 影响 的 情况 是 十 分 复 休 的， 目前， 在 我 国 自然 语言 处 理 研 
完 中 ， 这 个 问题 尚未 得 到 细致 的 考察 ， 而 且 ， 一 般 说 来 ， 根 结 点 的 牙 义 
情况 主要 应 该 由 它 的 两 个 直接 后 裔 组 成 的 PT- 结 构 来 决定 ， 下 层 结 点 的 
语法 和 语义 信息 不 可 能 使 其 基本 含义 及 生 改 变 ， 因 而 可 以 暂时 不 考虑 这 
些 信 息 对 根 结 点 的 歧义 的 影 啊 。 
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图 5.12 ”歧义 结构 





例如 , “直接 插入 子 程序 "这 个 术语 ， 插 入 词汇 单元 之 后 ， 其 树 形 图 


自 下 而 上 观察 ,“A+V"” 这 个 PIT- 结 构 是 一 个 无 琉 义 结构 ， 但 根 结 点 
NVP 的 两 个 直接 后 裔 VP 和 N 构 成 的 PT- 结构 WP+N 却 是 一 个 潜在 歧义 结 
构 ， 存 在 述 宾 一 定 中 歧义 ， 而 词汇 单元 的 词汇 意义 的 制约 以 及 语法 功能 
的 影响 ， 都 不 能 排除 这 种 歧义 ， 于 是 ， 潜 在 的 歧义 转化 为 现实 的 歧义 ， 
形成 一 个 述 宾 一 定 中 歧义 结构 。 这 个 术语 ， 可 以 解释 为 “直接 插入 一 个 
子 程序 ”( 述 宾 式 ) ， 也 可 以 解释 为 “直接 插入 的 子 程序 ”( 定 中 式 ) 。 




















值得 注意 的 是 ， 我 们 所 说 的 “潜在 监 义 ?， 仅 只 是 句法 功能 方面 的 监 
义 ， 而 不 是 逻辑 语义 方面 的 歧义 。 不 过 ， 句 法 功能 与 逻辑 语义 是 有 联系 
的 。 人 句法 功能 卜 义 有 时 会 导致 逻辑 语义 卜 义 ， 从 而 使 术语 的 字面 含义 友 
生 改 变 。 上 例 “ 直 接 插 入 子 程序 ”这 个 术语 的 “ 述 宾 一 定 中 ”这 种 句法 功能 





卜 义 ， 导 致 了 好 辑 语义 卜 义 ， 因 为 它 具 有 的 两 种 不 同 的 解释 ， 其 字面 意 
义 是 根本 不 同 的 。 然 而 ， 句 法 功能 歧义 并 不 一 定 总 是 导致 逻辑 语义 的 上 
Mo 有时， 一 个 术语 虽然 在 句法 功能 上 是 有 上 监 义 的 ， 但 是 ， 术 语 的 字面 
意义 并 未 改变 ， 


NVP 





数据 处 理 


图 5.13” 准 歧义 结构 








并 未 引起 逻辑 语义 收 义 。 例 如 ,， “自动 数据 处 理 * 这 个 术语 ， 择 入 词 
汇 单 元 并 且 实 例 化 之 后 ， 其 树 形 图 为 : 


自 下 而 上 观察 ，N+NV 这 个 PT- 结 构 有 “ 主 谓 一 定 中 一 状 中 歧义 ”， 
是 一 个 潜在 歧义 结构 ， 由 于 词汇 单元 的 词汇 意义 的 制约 和 语法 功能 的 影 
响 , “数据 ?不 可 能 做 “处理 ” 的 状语 ， 排 除了 状 中 式 之 可 能 ， 但 仍 保留 
了 * 主 谓 一 定 中 歧义 ”;， 根 结 点 NVP 的 两 个 直接 后 裔 QA 和 NVP 形 成 的 
QA+NVP 这 个 PT- 结构 有 “和 定 中 一 状 中 歧义 >”， 这 种 歧义 并 未 因为 词汇 意 








义 的 制约 和 词汇 单元 语法 特性 的 影响 而 消除 ， 最 后 形成 一 个 定 中 一 状 中 
式 的 现实 的 卜 义 结构 。 这 个 术语 可 以 解释 为 “上 自动 的 数据 处 理 ”( 定 中 

XO ， 也 可 以 解释 为 “ 目 动 地 进行 数据 处 理 ”( 状 中 式 ) ， 其 句法 功能 是 
有 歧义 的 ， 但 是 ， 这 种 句法 功能 靶 义 并 未 引起 这 个 术语 字面 意义 的 改 

变 ， 并 未 号 臻 逻辑 语义 的 歧义 。 











为 了 区 别 这 两 种 不 同 的 蚊 义 结构 ， 我 们 把 由 于 句法 功能 卜 义 而 导致 
术语 基本 字面 意义 不 同 的 歧义 结构 叫做 “ 真 歧义 结构 ”， 而 把 句法 功能 必 
义 不 导 致 术语 基本 字面 意义 不 同 的 歧义 结构 叫做 “ 准 歧义 结构 ”。 














这 样 ， 我 们 便 可 以 根据 术语 的 句法 功能 皮 义 是 人 否 导 致 术语 基本 字面 
含义 的 不 同 ， 把 术语 的 政 义 结构 分 为 真 歧 义 结构 和 准 歧义 结构 两 种 。 这 
种 区 分 有 着 实用 意义 。 因 为 在 术语 工作 的 实践 中 ， 必 须 特别 注意 由 于 名 
法 功能 下 义 而 导致 术语 字面 含义 不 同 的 那些 真 监 义 结构 。 








但 是 , “导致 木 语 基本 字面 含义 的 不 同 ”" 这 个 区 分 标准 是 比较 空灵 
的 ， 不 易 擎 握 ， 用 起 来 见仁见智 ， 因 人 而 异 。 我 们 能 人 否 为 这 个 区 分 标准 
找到 一 个 比较 可 菲 的 形式 标准 呢 ? 回 答 是 肯定 的 。 这 个 形式 标准 ， 束 是 
看 卜 义 术语 的 根 结 皮 的 两 个 直接 后 诊 组 成 的 PT- 结 构 在 实例 化 之 后 是 同 
焦 结构 还 是 异 焦 结 构 ， 如 果 是 同 焦 结构 ， 那 么 ， 该 卜 义 术语 的 结构 就 古 
准 皮 义 结构 ， 如 果 是 弄 焦 结构 ， 那 么 ， 该 收 义 术语 的 结构 就 是 真 收 义 结 
构 。 








由 于 同 焦 与 异 焦 的 区 别 是 由 汉语 术语 的 句法 功能 结构 中 的 功能 焦点 
的 位 置 来 决定 的 ， 所 以 ， 功 能 焦点 的 位 置 对 于 汉语 术语 的 监 义 的 研究 ， 
起 着 决定 性 的 作用 。 我 们 对 此 必须 给 以 足够 的 重视 。 功 能 焦点 的 位 置 对 
于 汉语 术语 的 歧义 具有 举足轻重 的 影响 ， 这 是 汉语 术语 结构 的 重要 特点 
us 








从 实用 的 观点 来 看 ， 对 于 歧义 结构 的 限制 应 该 严格 一 些 ， 而 对 于 必 
义 消 除 结构 的 限制 可 以 宽 一 些 。 这 样 ， 在 进行 术语 的 研究 和 规范 化 时 ， 
就 可 以 把 注意 力 集中 于 那些 最 容易 引起 歧义 的 问题 上 去 。 为 此 我 们 规 
定 : 





1. 只 有 妆 根 结 点 的 两 个 直接 后 宵 形 成 的 PT- 结 构 是 卜 义 结构 时 ， 整 
个 术语 的 结构 才 算 叔 义 结构 。 如 末 根 结 扣 的 两 个 直接 后 疹 形 成 的 PT- 结 
构 不 是 皮 义 结构 ， 尺 省 在 树 形 图 的 下 层 结 点 中 存在 卜 义 结构 ， 整 个 术语 
也 不 算 歧 义 结构 。 








2， 当 根 结 点 的 两 个 直接 后 裔 形成 的 PIT- 结构 是 此 义 消除 结构 时 ， 整 
个 术语 当然 要 算 上 蚊 义 消除 结构 。 但 是 ， 除 此 之 外 ， 如 果 根 结 点 的 两 个 直 
接 后 裔 形成 的 PT- 络 构 是 无 靶 义 结构 ， 只 要 在 下 层 结 点 中 还 存在 着 监 义 
消除 结构 ， 整 个 术语 也 算 卜 义 消除 结构 。 


(4) 非法 结构 Cillegal structure) 


如 采 术 语 的 字面 含义 与 它 的 学 术 合 义 发 生 歼 盾 ， 则 该 术语 的 结构 束 
是 非法 结构 。 非 法 结构 的 术语 应 该 重新 命名 。 例 如 ,“ 区 上 段 穿孔 ”这 个 术 
语 其 学 术 含 义 是 表示 “在 十 二 行 未 穿孔 卡片 上 部 三 行 中 的 一 行内 所 罕 的 
孔 ”， 显 然 是 指 一 个 “ 孔 ”， 而 不 是 穿孔 的 动作 。 从 其 学 术 合 义 来 看 ， 这 
个 术语 应 该 是 一 个 名 词 词组 。 但 这 个 术语 的 结构 却 是 N+V， 在 汉语 中 ， 
N+V 这 种 结构 是 永远 也 不 会 形成 一 个 名 词 词组 的 ， 它 违反 了 汉语 语法 结 
构 的 基本 规则， 术语 的 字面 含义 与 学 术 含 义 发 生 了 矛盾 ， 故 是 一 个 非法 
结构 ， 应 该 重新 命名 。 
































术语 的 PT- 结 构 与 SF- 结 构 的 非 同 构 现象 引起 的 监 义 ， 仅 只 是 术语 
结构 的 代数 值 方面 的 歧义 ， 因 为 这 种 监 义 ， 只 牵涉 到 表示 术语 结构 的 树 





形 图 中 的 同一 层级 上 两 个 结 点 的 代数 标记 ， 并 不 涉及 树 形 图 的 几何 形状 


问题 。 
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图 5.14 树 形 图 








但 是 ， 任 何 一 个 术语 的 线性 符 写 串 都 隐藏 着 一 个 多 层次 的 树 形 图 。 
这 种 树 形 图 不 仅 有 代数 标记 ， 而 且 还 有 几何 形状 。 树 形 图 的 几何 形状 也 
会 影响 到 术语 的 字面 含义 。 





例如 , “控制 /转移 /指令 ”这 个 术语 ， 其 树 形 图 可 以 为 





这 时 ， 有 代数 卜 义 。 因 为 可 有 述 宾 转 换 鉴 定式 : 
控制 /转移 指令 -控制 (这 种 ) 转移 指令 
其 字面 含义 是 :“ 控 制 茶 种 转移 指令 


还 可 有 定 中 转换 鉴定 式 : 
控制 /转移 指令 -控制 (的 ) 转移 指令 





其 字面 含义 是 :“ 具 有 控制 能 力 的 转移 指令 ”。 


因此 ， 这 个 术语 有 述 宾 一 定 中 歧义 。 这 是 一 种 代数 歧义 。 





同时 ， 这 个 术语 还 有 几何 歧义 ， 因 为 它 还 隐藏 肴 另 一 个 树 形 图 : 
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图 5.15” 树 形 图 








这 个 表示 为 这 种 几何 形式 的 树 形 图 的 术语 也 有 代数 皮 义 。 因 为 它 可 
AIR FRE IRE FETA: 


控制 转移 /指令 -控制 转移 (这 种 ) 指令 
其 字面 含义 是 :“ 控 制 并 且 转 移 菜 种 指令 


还 可 有 定 中 转换 鉴定 式 : 


控制 转移 /指令 控制 转移 (的 ) 指令 





其 字面 含义 是 :“ 具 有 控制 和 转移 能 力 的 指令 ”。 


可 以 看 出 ， 术 语 的 几何 歧义 ， 对 于 术语 的 字面 食 义 也 是 有 影响 的 。 
在 术语 歧义 问题 的 研究 中 ， 也 要 注意 由 于 构成 术语 的 各 个 单词 的 几何 层 
次 不 同 而 导致 的 几何 监 义 。 








术语 的 几何 卜 义 是 由 上 下 文 无 关 的 短语 结构 语法 本 里 固有 的 叔 义 造 
成 的 。 

一 般 说 来 ， 在 用 上 下 文 无 关 的 短语 结构 语法 来 生成 术语 的 过 程 中 ， 
如 末 对 语法 中 的 重 写 规则 的 使 用 顺序 不 一 样 ， 就 会 造成 几何 卜 义 。 





例如 ， 对 于 “控制 /转移 /指令 ”这 个 术语 ， 可 用 如 下 的 上 下 文 无 关 的 
短语 结构 语法 的 重 写 规则 来 生成 : 


NVP — NV NVP ...... (1) 
NVP— NVN  ...... (2) 
NVP—NVPN ...... (3) 
NVP => NV NV ...... (4) 


如 果 重 写 规则 的 使 用 顺序 是 : 


NVP 
NV NVP...... (1) 


则 可 得 到 第 一 个 树 形 图 。 
如 果 重 写 规 则 的 使 用 顺序 是 : 


NVP 


NV NV N ...... (4) 


则 可 得 到 第 二 个 树 形 图 。 


术语 的 几何 歧义 也 是 很 重要 的 ， 我 们 在 研究 术语 的 代数 歧义 的 同 
时 ， 也 不 能 忽视 木 语 的 几何 监 义 。 


术语 树 形 图 中 各 个 结 点 之 间 可 以 相互 影响 。 有 时 这 种 相互 的 影响 有 
助 于 判别 术语 的 代数 歧义 。 


我 们 经 初步 的 研究 发 现 有 如 下 的 规律 : 


1. 如 果 某 一 层级 上 的 PT- 结 构 是 VP+N， 而 动词 词组 VP 本 身 的 PT- 结 
构 是 V+N， 其 SF- 结构 是 述 宾 式 ， 那 么 ，PT- 结构 WP+N 中 的 N 决 不 能 是 
VP 的 宾语 ， 这 个 PT_ 结构 WP+N 的 SE_ 结构 决 不 能 是 述 宾 式 。 


V N 语言 
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图 5.16 ” 树 形 图 





PON, “面向 /过 程 /语言 ”这 个 术语 的 树 形 图 如 下 : 


在 这 个 树 形 图 中 , “面向 /过 程 > 这 个 VP 的 SF- 结构 已 经 是 述 宾 式 ， 其 
中 的 动词 V 已 经 有 宾语 ， 因 此 , “语言 ”> 这 个 名 词 N 就 不 能 是 动词 词组 VP 


的 宾语 。 





2. 如 果 某 一 层级 上 的 PT- 结构 是 QA+NVP， 而 其 中 NVP 的 PT- 结构 
是 NV+N， 那 么 ， 结 点 QA 将 使 NVP 中 的 名 动 同形 词 NV 失 去 动词 特性 ， 
使 得 NVP 的 SF- 结构 不 可 能 是 述 宾 式 。 


生成 程序 


图 5.17 树 形 图 











例如 ,，“ 宏 /生成 /程序 ”这 个 术语 的 树 形 图 如 下 : 


在 这 个 树 形 图 中 ,“ 生 成 /程序 ”这 个 PT- 结 构 由 NV+N 组 成 ， 其 SF- 结 
构 存 在 着 述 宾 一 定 中 歧义 ， 但 由 于 其 前 面 的 “ 宏 * 结 把 是 个 QA， 使 得 名 
动 同形 词 NV 失 去 了 动词 的 特性 ， 排 除了 NV+N 的 SF- 结 构 为 述 宾 式 之 可 


au, 
HE o 








树 形 图 中 各 个 结 点 的 这 种 相互 制约 相互 依存 的 关系 ， 对 于 术语 歧义 
的 研究 有 很 大 参考 价值 。 


PT- 结 构 为 NV+N 的 词组 型 术语 ， 其 句法 功能 结构 有 的 为 真 歧 义 结 
构 ， 有 的 为 歧义 消除 结构 ， 但 是 没有 为 准 歧义 结构 的 。 在 我 国学 者 设计 
的 中 文 术语 数据 库 GLOT-C 中 ，PT_ 结构 为 NV+N 的 词组 型 术语 有 143 


个 ， 其 中 ， 上 收 义 消除 结构 有 110 个 ， 占 76.9%， 真 歧义 结构 有 33 个 ， 占 
23.1%. 如 下 表 所 示 : 


结构 类 型 句法 功能 结构 Z 百分比 





歧义 消除 结构 | 定 中 式 | 76.9% 
真 层 义 结构 述 宾 一 定 中 歧义 x 23.14 


例如 , “模拟 /程序 ”这 个 词组 型 术语 ， 其 PT- 结 构 为 NV+N， 实 例 化 











之 后 具有 述 宾 一 定 中 歧义 ， 是 真 歧义 结构 。PT- 结 构 为 NV+N 的 具有 述 
宾 一 定 中 靶 义 的 词组 类 型 术语 还 有 :“ 生 成 /函数 ， 组 合 / 电 路 ， 记 忆 / 符 
号 ， 控 制 /功能 ， 控 制 /字符 ， 承 认 / 字 符 ， 否 认 / 字 符 ， 移 入 /字符 ， 移 出 / 
人 字符， 取代/ 字符， 删除/ 字符 ， 擦 除 /字符 ， 模 拟 / 数 据 ， 输 入 /数据 ， 输 
出 /数据 ， 输 出 /过 程 ， 传 送 / 过 程 ， 翻 译 /程序 ， 解 释 /程序 ， 调 用 /程序 ， 

检验 /程序 ， 编 译 /程序 ， 转 移 /指令 ， 生 成 /地 址 ， 合 成 /地 址 ， 控 制 / 语 

言 ， 控 制 /计算 器 ， 控 制 /程序 ， 转 移 /信息 ， 处 理 / 数 据 ” 等 。 


如 果 NV+N 结 构 中 ， 名 词 N 在 语义 上 不 能 作 名 动 同形 词 NV 的 宾语 ， 
那么 ，NV+N 就 不 能 为 述 宾 式 ， 这 时 ， 它 的 句法 功能 只 能 为 定 中 式 ， 成 
为 一 个 歧义 消除 结构 。 例 如 ,“ 开 关 / 函 数 "这 个 术语 ， 名 词 “ 函 数 * 在 语义 
上 不 能 作 名 动 同形 词 < 开 关 ” 的 宾语 ， 尽 管 “开关 "有 及 物性 ， 但 它 的 宾语 
8 为 “函数 "， 因 此 ，“ 开 关 / 函 数 "只 能 解释 为 定 中 式 ， 排 除了 述 宾 式 之 
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如 果 NV+N 结 构 中 ， 名 动 同形 词 NV 是 不 及 物 的 ， 这 样 ，NV 后 面 的 
N 就 不 可 能 为 它 的 宾语 ， 这 时 ，NV+N 的 句法 功能 只 能 是 定 中 式 ， 成 为 
一 个 卜 义 消除 结构 。 例 如 ,，“ 退 格 /字符 ”这 个 述 语 ， 名 动 同形 词 “ 退 格 ” 是 
不 及 物 的 ， 名 词 “ 字 符 ” 不 能 作 它 的 宾语 ， 这 个 术语 只 能 解释 为 定 中 式 ， 
排除 了 述 宾 式 之 可 能 。 在 很 多 情况 下 ， 当 名 动 同形 词 NV 的 构 词 方式 是 











述 宾 型 的 ， 即 前 一 语素 表示 动作 、 行 为 ， 后 一 语素 表示 这 种 动作 、 行 为 
所 支配 关 涉 的 事物 ， 那 么 ， 这 个 NV 就 不 能 带 宾语 ，NV+N 的 句法 功能 就 
只 能 是 定 中 式 。 





可 见 ， 当 用 NV+N 这 种 结构 来 命名 术语 时 ， 要 使 其 不 产生 歧义 的 条 
件 是 : 


1. N 在 语义 上 不 能 作 NV 的 宾语 ; 
2. NV 是 不 及 物 的 ， 或 NV 的 构 词 方 式 是 述 宾 型 的 。 








这 就 是 词组 型 术语 NV+N 的 命名 规范 。 


PT- 结 构 为 V+N 的 词组 型 术语 的 句法 功能 结构 可 为 歧义 消除 结构 ， 
也 可 为 真 歧义 结构 ， 但 是 不 能 为 准 歧义 结构 。 在 我 国学 者 设计 的 中 文 术 
语 数据 库 GLOT-C 中 ，PT- 结构 为 V+N 的 词组 型 术语 有 71 人 个， 其中， 有 
62 个 的 句法 功能 结构 是 歧义 消除 结构 ， 占 87.33%， 有 9 个 的 句法 功能 结 
构 是 真 歧义 结构 ， 占 12.67%。 在 PT- 结 构 实 例 化 之 后 ，V+N 可 以 为 真 歧 
义 结构 或 靶 义 消除 结构 ， 但 未 见 有 为 准 歧义 结构 的 。 如 下 表 所 示 : 


结构 类 型 句法 功能 结构 Z 百分比 





歧义 消除 结构 定 中 式 78.8796 
歧义 消除 结构 述 宾 式 8.46% 
真 歧 义 结构 述 宾 一 定 中 歧义 12.67% 

















例如 , “分 割 /字符 ”这 个 术语 ， 其 词组 类 型 结构 是 V+N， 由 于 名 
词 “ 字 符 ” 在 语义 上 可 以 作 动词 “分 割 * 的 宾语 ， 其 句法 功能 可 以 解释 为 述 
宾 式 ， 它 的 含义 是 “分 割 条 个 字符 ”， 表 示 一 种 动作 或 行为 。 但 是 ， 与 此 
同时 ， 由 于 名 词 “ 字 符 * 在 语义 上 也 可 以 受 动词 “分 割 * 的 修饰 ， 其 句法 功 
能 也 可 以 解释 为 定 中 式 ， 它 的 含义 是 “具有 可 分 割 性 质 的 字符 ”， 表 示 一 























种 事物 。 “分 割 /字符 ”这 两 种 不 同 的 解释 是 不 可 兼容 的 ， 其 学 术 含义 和 字 
面 含义 都 是 截然 不 同 的 ， 是 一 个 真 歧义 结构 。PT- 结 构 为 V+N 的 具有 述 
宾 一 定 中 攻 义 的 词组 型 术语 还 有 : “链接 / 程 序 ， 触 上 友 / 电 路 ， 预 置 / 参 
数 ， 监 督 / 程 序 ， 引 叶 / 程 序 ， 分 派 / 程 订 ， 装 入 /模块 "等 。 





如 果 V+N 结 构 中 ， 名 词 N 在 语义 上 不 能 作 动词 V 的 宾语 ， 那 么 ， 
V+N 了 就 不 可 能 为 述 宾 式 ， 牙 义 消 除 ， 成 为 一 个 定 中 式 的 歧义 消除 结构 。 
例如 , “延迟 /元 件 ” 这 个 术语 ， 名 词 “ 元 件 ” 在 语义 上 不 能 作 动词 “延迟 ”的 
宾语 ， 排 除了 其 语法 功能 为 述 宾 式 之 可 能 ， 其 中 , “延迟 ”是 定语 ，“ 元 
件 ” 是 中 心 语 ， 其 句法 功能 为 定 中 式 。 这 时 ， 尽 管 “ 延 迟 ” 是 一 个 及 物 动 
词 ， 它 后 面 的 名 词 “ 元 件 ” 仍 然 不 是 它 的 宾语 ， 动 词 “ 延 迟 ” 只 不 过 说 明 名 
词 “ 元 件 ” 的 某 种 性 质 而 已 ， 它 对 于 名 词 “ 元 件 * 并 没有 支配 作用 。 











如 果 V+N 中 ，V 为 不 及 物 动 词 ， 那 么 ， 名 词 N 就 不 可 能 作 宾 语 ， 排 
BR SIRES RE BOER, BAP EU BOGART. Bil 
a. “ 示 踩 /程序 "这 个 术语 ， 动 词 “ 示 踪 ? 是 一 个 不 及 物 动词 ， 不 可 能 再 带 
宾语 ， 排 除了 名 词 “ 元 件 ” 为 宾语 之 可 能 ,“ 示 踩 ? 是 定语 ,“ 元 件 ” 是 中 心 
语 ， 其 句法 结构 为 定 中 式 。 这 时 ， 动 词 “ 示 踩 ”的 构 词 方式 是 述 宾 型 的 ， 
前 一 语素 “ 示 ” 表 示 某 种 行为 ， 后 一 语素 “ 踊 ” 表 示 这 种 行为 所 关 涉 到 的 事 
物 。 一 般 地 说 ， 按 这 种 构 词 方式 构成 的 动词 大 都 是 不 及 物 的 ， 因 而 它 后 
面 的 名 词 就 不 能 是 它 的 宾语 。 




















如 果 V+N 中 ， 动 词 V 在 语义 上 不 能 作 名 词 N 的 定语 ， 那 么 ，V+N 殉 
不 可 能 为 定 中 式 ， 歧 义 消 除 ， 成 为 一 个 述 宾 式 的 下 义 消除 结构 。 例 
如 ,，“ 取 /比例 尺 * 这 个 术语 中 ， 动 词 “ 取 * 在 语义 上 不 能 作 名 词 “ 比 例 尺 ”的 
rele, “BAIA, “比例 尺 ” 是 宾语 ， 其 句法 功能 为 述 宾 式 。 





可 见 ， 当 用 V+N 这 种 结构 来 给 术语 命名 时 ， 要 使 术语 不 产生 歧义 的 


条 件 是 : 





1.N 在 语义 上 不 能 作 V 的 宾语 ， 这 时 ， 整 个 术语 为 定 中 式 ; 








2. V 是 不 及 物 动词 ， 或 者 V 的 构 词 方 式 是 述 宾 型 的 ， 这 时 ， 整 个 术 
语 为 定 中 式 ; 


3. V 在 语义 上 不 能 作 N 的 定语 ， 这 时 ， 整 个 术语 为 述 宾 式 。 
这 就 是 词组 型 术语 V+N 的 命名 规范 。 


可 见 ， 词 组 型 术语 V+N 的 命名 规范 同 词组 型 术语 NV+N 的 命名 规范 
大 同 小 异 。 


第 三 太 ”日 第 语言 中 的 潜在 上 收 义 


潜在 卜 义 论 是 我 们 在 研究 汉语 术语 收 义 问题 时 提出 来 的 ， 这 种 理论 
也 同样 适合 于 日 第 的 语言 ， 它 不 仪 适 用 于 汉语 ， 也 适用 于 英语 。 


如 琳 我 们 用 潜在 卜 义 论 的 观点 来 分 析 前 面 我 们 在 第 一 市 中 提 到 的 那 
些 英 语 和 汉语 的 监 义 结构 时 ， 我 们 融会 得 到 相当 满意 的 解释 。 


英语 的 “VP + NP1 + Prep + NP2” 这 个 结构 也 是 一 个 潜在 歧义 结构 。 
当 这 个 潜在 歧义 结构 实例 化 为 saw a boy with a telescope 时 ， 由 于 with a 
telescope 在 语义 上 既 可 作 a boy 的 定语 ， 叉 可 作 saw 的 状语 ， 洪 在 卜 义 不 
能 消失 ， 于 是 ， 这 个 潜在 歧义 结构 转化 成 了 现实 的 真 卜 义 结构 。 当 这 个 
潜在 歧义 结构 实例 化 为 lost the ticket to New York， 由 于 to New York 在 语 
义 上 不 能 作 ]ost 的 状语 ， 只 能 作 the ticket 的 定语 ， 于 是 ， 潜 在 歧义 消失 ， 
这 个 句子 只 能 解释 为 “丢失 了 到 纽约 的 票 "”” 而 不 能 解释 为 “到 纽约 丢失 

票 ?， 变 成 了 一 个 歧义 消除 结构 。 


同样 地 ， 汉 语 中 的 “VP + 的 + 是 + NP” 也 是 一 个 潜在 上 收 义 结构 ， 其 中 
的 “VP ”+ 的 ” 既 可 以 是 施 事 ， 又 可 以 是 受 事 。 当 它 实 例 化 为 “看 的 是 病 
人 ”时 ， 潜 在 收 义 转化 为 现实 的 卜 义 ， 得 到 一 个 真皮 义 结构 ， 而 当 它 实 
例 化 为 “发 明 的 是 一 个 工人 * 时 , “发 明 的 ”* 只 能 是 施 事 ， 潜 在 收 义 消失 ， 
得 到 了 一 个 卜 义 消除 结构 。 








汉语 中 的 “N1 + N2 + N3” 也 是 一 个 潜在 歧义 结构 ， 其 层次 可 以 理解 
为 ((N1+N2) +N3) ， 也 可 以 理解 为 CN1 + (CN2+N3) ) ， 有 几何 
歧义 。 当 这 些 潜在 歧义 结构 实例 化 为 “台湾 语言 研究 会 ?时 ， 可 以 理解 


为 “台湾 语言 的 研究 会 "， 也 可 以 理解 为 “台湾 的 语言 研究 会 "， 潜 在 歧义 
转化 为 现实 的 歧义 ， 得 到 一 个 真 歧义 结构 : 但 是 ， 当 这 个 潜在 上 蚊 义 结构 
实例 化 为 "地 名 语源 词典 ?时 ， 淤 在 蚊 义 消失 ， 成 为 了 监 义 消 除 结构 。 


汉语 中 的 “ADJ + N1 + N2” 也 是 一 个 潜在 歧义 结构 ， 其 层次 可 以 理 
解 为 ( CADJ + ND + N2) ， 也 可 以 理解 为 (ADJ + (N1 + N2) ) ， 
有 几何 歧义 。 当 这 个 潜在 歧义 结构 实例 化 为 “小 学 生词 典 ? 时 ， 可 以 理解 
为 “小 学 生 用 的 词典 *， 也 可 以 理解 为 “小 型 的 学 生词 典 ?， 潜 在 歧义 转化 
为 现实 的 卜 义 ， 得 到 一 个 真皮 义 结构 ， 但 是 ， 当 这 个 潜在 歧义 结构 实例 
化 为 “新 英汉 词典 * 时 ， 潜 在 歧义 消失 ， 成 为 了 卜 义 消除 结构 。 





由 此 可 见 ， 潜 在 叔 义 是 存在 于 目 然 语言 中 的 一 个 普 过 现象 ， 它 不 仅 
存在 于 科技 术语 中 ， 也 存在 于 日 常 语言 中 ， 不 仪 存在 于 汉语 中 ， 也 存在 
于 英语 等 外 语 中 。 潜 在 卜 义 论 加 深 了 我 们 对 于 上 自然 语言 同形 歧义 问题 的 


认识 。 





根据 近年 来 学 者 们 的 研究 结果 ， 我 们 把 汉语 中 的 洪 在 靶 义 结构 举例 
说 明 如 下 : 


(1) VP+ 的 + 是 +NP: 


当 实 例 化 为 “援助 /的 /是 /中 国 ?” 时 ， 可 以 理解 为 "中国 援助 了 别 国 ”， 
也 可 以 理解 为 “ 别 国 援助 了 中 国 ”， 潜 在 歧义 转化 为 现实 的 歧义 。 


但 是 ， 当 实例 化 为 “发 明 / 的 /是 /工人 ”时 ， 潜 在 歧义 消失 。 当 实例 化 
为 “关心 /的 /是 /分 数 ” 时 ， 潜 在 卜 义 也 消失 了 。 


这 种 情况 ， 前 面 已 经 分 析 过 ， 兹 不 资 述 。 


(2) N1+ N2 + N3: 


当 实 例 化 “台湾 /语言 /研究 会 "时 ， 潜 在 卜 义 转化 为 现实 的 叔 义 。 
当 实 例 化 为 "地 名 /语源 /词典 ?时 ， 潜 在 歧义 消失 。 
这 种 情况 ， 前 面 也 分 析 过 ， 效 不 袭 述 。 


(3) ADJ * N1 + N2: 





当 实 例 化 为 “小 /学 生 / 词 典 * 时 ， 潜 在 歧义 转化 为 现实 的 歧义 。 
当 实 例 化 为 新/ 英汉/ 词典? 时， 潜在 下 义 消失 。 

RAL, Ht ire, ZANE. 

(4) 全 部 〈 部 分 ) + VP + 的 + NP: 


全 部 〈 部 分 ) 可 以 作为 VP 的 状语 ， 有 可 以 作为 NP 的 定语 ， 从 而 产 
生 歧 义 。 

当 实 例 化 为 “部 分 /锈蚀 /的 /仪器 ?时 ， 可 以 理解 为 "部 分 /锈蚀 ) /的 / 
仪器 ”(“ 部 分 ” 作 * 锈 蚀 ?” 的 状语 ) ， 也 可 以 理解 为 “部 分 /锈蚀 /的 / 仪 
器 ) ”(“* 部 分 ” 作 *“ 锈 蚀 的 仪器 ”的 定语 ) ， 洪 在 歧义 转化 为 现实 的 歧 
义 。 

当 实 例 化 为 “部 分 /牺牲 /的 /战士 ?> 时 ， 只 能 理解 为 "部 分 /〈 牺 牲 /的 / 战 
士 ) ”(“ 部 分 ” 作 *“ 和 辆 牲 的 战士 ”的 定语 ) ， 潜 在 歧义 消失 。 

(5) 数量 结构 + NP1 + 的 + NP2: 


“数量 结构 ”可 以 限定 NP1， 作 NP1 的 定语 ， 又 可 以 限定 “NP1 + 的 + 


NP2”， 作 “NP1 + 的 + NP2” 的 定语 ， 因 而 产生 歧义 。 





当 实 例 化 为 “三 个 /学 校 /的 /实验 员 ” 时 ， 可 以 理解 为 “(三 个 /学 校 》/ 
的 /实验 员 ”(“ 三 个 ”限定 “学 校 ?) ， 又 可 以 理解 为 “三 个 /( 学 校 /的 /实验 
员 ) ”(“ 三 个 ”限定 “学 校 的 实验 员 ”) ， 淤 在 监 义 转化 为 现实 的 歧义 。 














当 实例 化 为 “三 所 /学 校 /的 /实验 员 ” 时 ， 只 能 理解 为 ”〈 三 所 /学 校 ) / 
的 /实验 员 ”(〈“ 三 所 ”限定 “学 校 ?， 不 能 限定 “实验 员 ”) ， 淤 在 歧义 消 
Ai 当 实 例 化 为 “三 位 /学 校 / 的 /实验 员 ?” 时 ， 只 能 理解 为 “三 位 /《〈 学 校 /的 / 
实验 员 ) ”(“ 三 位 ”限定 “学 校 的 实验 员 ”， 不 能 限定 “学 校 *?) ， 潜 在 上 疏 义 
消失 。 

















(6) VP + 数量 结构 + NP: 


数量 结构 可 以 作 VP 的 补 语 ， 又 可 以 作 NP 的 定语 ， 这 残 产生 了 淤 在 
歧义 。 





当 实 例 化 为 “发 了 /三 天 /工资 * 时 ， 可 以 理解 为 “(发 了 /三 天 ) IL 
BR” (“三 天 ” 作 “ 发 了 ”的 补 语 ) ， 又 可 以 理解 为 “发 了 /三 天 / 工 
资 )”(“ 三 天 ” 作 “ 工 资 * 的 定语 )， 洪 在 卜 义 转化 为 现实 的 叔 义 。 


当 实 例 化 为 <( 写 了 /两 天 ) /文章 "时 (“两 天 * 作 “ 写 了 * 的 补 语 ， 
但 “两 天 * 不 能 作 “ 文 章 ” 的 定语 ，， 潜 在 歧义 消失 ， 当 实例 化 为 “ 写 了 / 
(一 篇 文章 ) * 时 (“一 篇 "作文 章 " 的 定语 ， 但 “一 篇 "不 能 作 “ 写 了 ”的 
补 语 ) ， 潜 在 歧义 也 消失 。 








上 面 的 例子 是 改变 数量 结构 中 的 量词 来 消除 歧义 ， 有 时 ， 改 变数 量 
结构 中 的 数 词 也 可 以 消除 监 义 。 例 如 ， 当 实例 化 为 * 讲 了 /三 年 / 历 
史 ” 时 ,，“ 三 年 ”可 以 理解 为 “ 讲 了 ”的 补 语 ， 又 可 以 理解 为 “历史 ”的 定语 ， 


潜在 歧义 转化 为 现实 上 蚊 义 ， 但 是 ， 当 实例 化 为 * 讲 了 /三 千年 / 历 
史 ” 时 ,“ 三 千年 ?只 能 作 “ 历 史 ?” 的 定语 ， 不 能 作 * 讲 了 ?的 补 语 ， 洪 在 歧义 
消失 。 


(7) V+ADJ+N: 


当 实 例 化 为 * 穿 /好 /衣服 ?时 ， 可 以 理解 为 *〈 穿 /好 ) DK 
服 ”(“ 好 ” 作 * 穿 ”的 补 语 ) ， 又 可 以 理解 为 “ 穿 / (好 /衣服 ) ”(“ 好 ” 作 * 衣 
服 ” 的 定语 ) ， 洪 在 靶 义 转化 为 现实 的 歧义 。 


当 实 例 化 为 “研究 /清楚 /问题 ?时 ， 只 能 理解 为 <〈 研 究 /清楚 ) / 问 
题 *”(“ 清 楚 ” 只 能 作 “ 研 究 ” 的 补 语 ， 不 能 作 “ 问 题 * 的 定语 〉， 洪 在 歧义 消 
失 ， 当 实例 化 为 “研究 /困难 /问题 ?时 ， 只 能 理解 为 “研究 /( 困 难 / 问 
题 ) ”(“ 困 难 ” 只 能 作 “ 问 题 * 的 定语 ， 不 能 作 “ 研 究 * 的 补 语 )， 洪 在 歧义 
也 消失 。 


(8) V1 + V2 + NP: 


V2 与 V1 可 以 组 成 联合 结构 ， 它 们 共同 的 宾语 是 NP， 但 V2 又 可 以 与 
NP 组 成 述 宾 结构 ， 作 为 V1 的 宾语 ， 而 且 ，V2 叉 可 以 作为 NP 的 定语 ， 形 
成 偏 正 结构 作 V1 的 宾语 ， 这 就 产生 了 潜在 歧义 。 


当 实 例 化 为 “研究 /推广 /新 技术 ”时 ， 可 以 理解 为 “(研究 /推广 ) /新 
技术 ”(“ 新 拉 术 ” 作 “ 研 究 / 推 广 ” 的 宾语 )， 叉 可 以 理解 为 “研究 /( 推 广 / 
新 技术 ) ”(“ 新 技术 ”只 作为 “推广 ”的 宾语 ) ， 光 在 歧义 部 分 地 转化 为 
PSE ABC 





当 实 例 化 为 “继承 /发 展 / 老 传统 "时 ， 只 能 理解 为 “(继承 /发 展 ) / 老 
传统 ”(“ 老 传统 " 作 “ 继 承 /发 展 ” 的 共同 宾语 )， 潜 在 歧义 消失 ;， 当 实例 


化 为 “推广 /养殖 /新 技术 ”时 ， 只 能 理解 为 "推广 /〈 养 殖 / 新 技术 ) ” CR 
殖 ” 作 “新 技术 ”的 定语 ,“ 养 殖 / 新 技术 ”这 一 偏 正 结构 又 作为 “推广 ”的 性 
语 ) ， 潜 在 歧义 也 消失 。 


(9) NP1 + NP? + VP: 





NP2 可 受 NP1 的 限定 而 与 之 形成 偏 正 结构 ， 作 为 VP 的 主语 ，NP2 叉 
可 以 与 VP 形成 主 谓 结 构 ， 作 为 NP1 的 谓语 。 这 样 ， 就 产生 了 潜在 歧义 。 


当 实 例 化 为 “小 王 / 心 肌 / 发 炎 ” 时 ， 可 以 理解 为 “(小 王 / 心 肌 〉 /发 
炎 ”(“ 小 王 / 心 肌 ” 组 成 偏 正 结构 作 “ 发 炎 ” 的 主语 )， 又 可 理解 为 “小 王 / 
(心肌 /发 炎 ) ”(“ 心 肌 / 发 炎 ” 这 个 主 谓 结构 作为 小 王 的 谓语 ， 共 同 构成 
一 个 主 谓 谓语 句 ) ， 潜 在 歧义 转变 现实 的 睹 义 。 


当 实 例 化 为 “中 国 队 / 冠 军 / 稳 拿 时 ， 只 能 理解 为 “中 国 队 / 冠军 / 稳 
拿 ) ”(“ 冠 军 / 稳 拿 这 个 主 谓 结 构 作 “中 国 队 ”的 谓语， 潜在 收 义 消 
失 ;， 当 实例 化 为 “词尾 /辅音 / 清 化 ”时 ， 只 能 理解 为 “(词尾 / 辅 首 ) / 轻 
化 ”(“ 词 尾 / 辅 首 ” 组 成 的 偏 正 结构 作 “ 清 化 ”的 主语 )， 潜 在 卜 义 消失 。 


(10) N1 + N2: 


N1 可 限定 N2 而 与 之 形成 偏 正 结构 ，N1 又 可 作为 N2 的 主语 而 与 之 形 
成 主 谓 结构 ，N1 与 N2 还 可 形成 联 体 结构 或 者 同位 结构 ， 从 而 产生 多 种 
洪 在 臣 义 。 这 种 结构 我 们 在 讨论 汉语 词组 型 术语 的 潜在 歧义 时 已 分 析 
过 ， 不 过 ， 在 日 常 汉语 中 ， 其 潜在 歧义 更 为 丰富 。 





当 实 例 化 为 “牛奶 /面包 ?时 ， 可 以 理解 为 " 烤 制 时 加 了 和 牛奶 的 面 
fu" RIE ， 又 可 以 理解 为 “牛奶 和 面包 ”(〈 联 体 结构 ) ， 成 为 现 
实 的 偏 正 一 联 体 歧 义 结 构 ， 但 同位 结构 和 主 谓 结构 的 卜 义 消失 。 








当 实 例 化 为 “塑料 /玩具 ”时 ， 只 能 理解 为 “塑料 的 玩具 ”( 偏 正 结 
构 ) ， 联 体 、 主 谓 、 同 位 等 潜在 歧义 消失 。 


当 实 例 化 为 “飞机 /大 炮 * 时 ， 只 能 理解 为 “飞机 和 大 炮 ”( 联 体 结 
构 )， 偏 正 、 主 请 、 同 位 等 潜在 歧义 消失 。 


当 实 例 化 为 “今天 /星期 三 "时 ， 只 能 理解 为 “今天 是 星期 二 ”〈( 主 谓 结 
构 )， 偏 正 、 联 体 、 同 位 等 潜在 歧义 消失 。 








当 实 例 化 为 “数学 家 华罗庚 * 时 ， 只 能 理解 为 “作为 数学 家 的 华 罗 
庚 ”( 同 位 结构 )， 偏 正 、 联 体 、 主 谓 等 潜在 卜 义 消失 。 


(11) V+N: 


在 汉语 词组 型 科技 术语 中 ,“V + 人 "可 形成 述 宾 一 定 中 歧义 。 在 日 
常 语言 中 ， 这 种 潜在 收 义 仍然 存在 : V 可 以 作为 N 的 述 语 〈N 作 宾语 ) ， 
V 又 可 作为 N 的 定语 CN 作 中 心 语 ) 。 

当 实 例 化 为 “翻译 /小 说 ”时 ， 可 以 理解 为 “翻译 某 部 小 说 ”( 述 宾 结 
构 )， 也 可 以 理解 为 “翻译 的 小 说 ”( 仿 正 结构 )， 潜 在 收 义 转化 为 现实 
的 歧义 。 


当 实 例 化 为 “开动 /机 串 ? 时 ， 只 能 理解 为 “开动 茶 种 机 器 ”(〈 述 宾 结 
构 ) ， 潜 在 歧义 消失 。 


(12) V + ADJ: 


ADJ 可 作为 述 语 V 的 补 语 ， 形 成 述 宾 结构 ，ADJ 又 可 作为 述 语 V 的 宾 
语 ， 形 成 述 宾 结构 。V 叉 可 作为 主语 ，ADJ 作 V 的 谓语 ， 形 成 主 谓 结 
构 。 这 样 ，V + ADJ 就 可 具有 述 补 一 述 宾 一 主 谓 潜在 歧义 。 








当 实 例 化 为 “说 /清楚 ”时 ， 只 能 理解 为 述 补 结构 (“说 ”是 述 语 ,“ 清 
楚 ” 是 补 语 )， 不 能 理解 为 述 宾 或 主 谓 结构 ， 潜 在 歧义 消失 。 


当 实 例 化 为 “感到 /混乱 ”时 ， 只 能 理解 为 述 宾 结构 (“感到 ”是 述 
ih, ‘URAL’ EF) ， 不 能 理解 为 述 补 结构 或 主 谓 结构 ， 潜 在 歧义 也 消 
失 。 

当 实 例 化 为 “认识 /落后 ”时 ， 只 能 理解 为 主 谓 结构 (“认识 ”是 主 
语 ,，“ 落 后 ”是 谓语 )， 不 能 理解 为 述 补 结构 或 述 宾 结构 ， 潜 在 歧义 也 消 
失 。 








(13) V1+ V2 (趋向 动词 ) : 


趋向 动词 V2 可 以 作为 V1 的 补 语 ， 形 成 述 补 结构 ，V2 叉 可 作为 V1 的 
宾语 ， 形 成 述 宾 结构 。 这 样 ，V1 + V2 (趋向 动词 ) WAAR KE 
潜在 歧义 。 


当 实 例 化 为 “ 想 /起 来 "时 ， 可 以 理解 为“ 想 得 起 来 " (“起 来 " 作 “ 想 ”的 
补 语 ) ， 也 可 以 理解 为 " 想 从 某 个 地 点 起 来 ”(“ 起 来 " 作 " 想 * 的 宾语 ) ， 
潜在 歧义 转化 为 现实 的 歧义 。 





当 实 例 化 为 “ 坐 /下 去 ?时 ， 趋 问 动 词 “ 下 去 ”只 能 理解 为 动词 “ 坐 的 补 
语 ， 形 成 述 补 结构 ， 潜 在 歧义 消失 。 








当 实 例 化 为 “要求 / 下 去 ”时 ， 趋 癌 动 词 “ 下 去 ”只 能 理解 为 动词 “要 
求 ” 的 宾语 ， 形 成 述 宾 结构 ， 潜 在 收 义 消失 。 





(14) ADJ1 + ADJ2: 


ADJ1 和 ADJ2 可 以 形成 联 谓 结构 ， 又 可 以 形成 偏 正 结构 ， 从 而 产生 


联 谓 一 偏 正 的 潜在 歧义 。 


当 实 例 化 为 “干净 /利落 ?时 ， 只 能 理解 为 "又 干 奖 又 利落 "， 是 联 谓 结 
构 ， 潜 在 歧义 消失 。 


当 实 例 化 为 “ 紫 / 红 ” 时 ， 表 示 一 种 “ 红 中 带 蓝 的 颜色 ”，“ 紫 ” 作 “ 红 ”的 
定语 ， 形 成 偏 正 结构 ， 洪 在 歧义 也 消失 。 


(15) V1 + V2: 


在 汉语 科技 术语 中 ，V1 + V2 具有 联 请 一 状 中 一 述 宾 一 述 补 卜 义 。 
这 种 情况 ， 在 日 常 书面 汉语 中 也 存在 。 如 果 V2 是 趋 回 动词 ， 则 具有 述 
宾 一 述 补 靶 义 [如 (13) 中 所 述 ] 。 这 里 研究 V2 不 是 趋向 动词 的 情 
况 。 


当 实 例 化 为 审核/ 批准? 时， 可 以 理解 为 审核 并 且 批准 ?， 有 是 联 谓 结 
构 ， 也 可 以 理解 为 “经 过 审核 之 后 批准 ”， 是 状 中 结构 ， 述 补 和 述 宾 的 潜 
TE BOB aT UA 








当 实 例 化 为 “分 析 / 检 查 ” 时 ， 只 能 理解 为 “分 析 并 且 检 查 ”， 是 联 谓 结 
构 ， 状 中 、 述 宾 、 述 补 等 潜在 歧义 消失 。 


当 实 例 化 为 “ 举 手 /表决 "时 ， 只 能 理解 为 “以 举 手 的 方式 来 表决 "， 是 
状 中 结构 ， 联 谓 、 述 宾 、 述 补 等 潜在 卜 义 消失 。 





当 实 例 化 为 “表示 /欢迎 ”时 , “欢迎 ”是 “表示 ”的 宾语 ， 只 能 理解 为 述 
宾 结 构 ， 联 谓 、 状 中 、 述 补 等 卜 义 消失 。 


当 实 例 化 为 “ 淋 / 透 "时 (“衣服 叫 雨 淋 透 了 ”) ,，“ 透 ”(V2) XX 
WAP CVD 的 结果 ， 是 述 补 结构 ， 联 谓 、 状 中 、 述 宾 等 潜在 收 义 消 


(160 N + V: 


在 汉语 科技 术语 中 ，N + V 有 主 谓 一 状 中 潜在 收 义 。 在 日 党 汉语 
中 ， 情 况 更 为 复杂 ， 除 了 主 谓 一 状 中 潜在 歧义 之 外 ， 还 要 加 上 定 中 洪 在 
RX. 

当 实 例 化 为 系统 /研究 "时 ， 可 以 理解 为 “系统 被 研究 了 ”( 主 谓 结 


构 ) ， 也 可 以 理解 为 “系统 地 进行 研究 ”《〈 状 中 结构 ) ， 还 可 以 理解 
为 “系统 的 研究 ”〈 定 中 结构 ) ， 潜 在 攻 义 转化 为 现实 的 歧义 。 


SSE RICA TA a iy, “旗帜 "是 主语 ,，“ 殊 扬 ” 是 谓语 ， 只 能 理 
解 为 主 谓 结 构 ， 状 中 、 定 中 的 潜在 歧义 消失 。 





当 实 例 化 为 "上 午 /开会 ?时 ， 只 能 理解 为 “在 上 午 开 会 >， 名 词 “ 上 
午 ” 作 动词 “开会 ”的 状语 ， 形 成 状 中 结构 ， 主 谓 、 定 中 等 潜在 歧义 消 
失 。 





当 实 例 化 为 “工业 /建设 ?时 ， 只 能 理解 为 “工业 的 建设 "， 和 名词 “ 工 
业 *” 作 动词 “建设 ”的 定语 ， 形 成 定 中 结构 ， 主 请 、 状 中 等 潜在 叔 义 消 
失 。 





(17) Prep + N1 + 的 + N2: 


介词 Prep 一 般 是 “< 关于、 对于、 在 ”等 ， 如 果 Prep 的 宾语 只 是 
N1,“Prep + N1” 与 “的 ”结合 成 “的 字 结 构 ” 作 N2 的 定语 ， 整 个 格式 是 定 中 
结构 ， 但 是 ， 介 词 Prep 的 宾语 也 可 能 是 “N1 + 的 +N2” 这 个 名 词 词组 ， 整 
个 格式 是 介 宾 结构 。 由 于 层次 的 不 同 ， 整 个 格式 的 含义 也 就 不 同 ， 这 产 
^E TY 5 x. 








如 果 介 词 为 “关于 ”， 当 实例 化 为 “关于 曹 帅 的 书 * 时 ， 可 以 理解 
ARTE BINS AB”, “关于 曹 吊 的 ” 作 “ 书 ”的 定语 ， 也 可 以 把 “ 曹 怠 
的 书 ” 理 解 为 介词 “关于 ”的 宾语 ， 形 成 介 恬 结构 ， 潜 在 皮 义 转化 为 现实 
的 歧义 。 





当 实 例 化 为 “关于 曹 帅 的 母亲 ”时 ， 只 能 理解 为 “ 曹 币 的 母亲 ” 作 介 
词 “ 关 于 ”的 宾语 ， 潜 在 歧义 消失 。 


当 实 例 化 为 “关于 语法 的 书 ?" 时 ， 只 能 理解 为 “关于 语法 的 ” 作 名 
词 “ 书 ”的 定语 ， 潜 在 歧义 也 消失 。 


如 果 介 词 为 “对 于 ”， 当 实例 化 为 “对 于 老师 的 意见 ”时 ， 可 以 把 “对 
于 老师 的 ”理解 为 名 词 意见 的 定语 ， 整 个 结构 是 一 个 定 中 结构 ， 也 可 以 
理解 为 “老师 的 意见 ” 作 介 词 “ 对 于 ”的 宾语 ， 整 个 结构 是 一 个 介 宾 结构 ， 
潜在 歧义 转化 为 现实 的 歧义 。 


当 实例 化 为 “对 于 罪犯 的 判 词 > 时 ， 只 能 理解 为 "对 于 罪犯 的 ” 作 名 
词 < 判 词 ” 的 定语 ， 整 个 结构 只 能 是 一 个 偏 正 结构 ， 潜 在 歧义 消失 。 


如 果 介 词 为 “在 ”， 当 实例 化 为 “在 路 北 商店 ?时 ， 可 以 理解 为 “在 路 
北 的 ?限定 名 词 “商店 >， 作 “商店 ”的 定语 ， 整 个 结构 是 一 个 定 中 结构 ， 
也 可 以 理解 为 “路 北 的 商店 ” 作 介词 “在 ”的 宾语 ， 整 个 结构 是 一 个 介 宾 结 
构 ， 淤 在 监 义 转化 为 现实 的 上 琉 义 。 


当 实 例 化 为 “在 学 校 的 老师 ?时 ， 只 能 理解 为 “在 学 校 的 ” 作 名 词 “ 老 
师 ” 的 定语 ， 整 个 结构 是 一 个 定 中 结构 ， 潜 在 卜 义 消失 。 





当 实 例 化 为 “在 学 校 的 图 书馆 ”时 ， 只 能 理解 为 “学 校 的 图 书馆 ” 作 介 
词 “ 在 ”的 宾语 ， 整 个 结构 是 一 个 介 宾 结构 ， 潜 在 卜 义 也 消失 。 





在 汉语 中 ， 由 于 介词 对 于 宾语 管辖 范围 的 宽 狭 不 同 而 形成 歧义 是 很 
普遍 的 。 在 英语 中 ， 由 于 介词 词组 PP 的 挂靠 的 成 分 不 同 ， 易 于 产生 旧 
义 。 在 汉语 中 ， 由 于 介词 Prep 的 管辖 领域 不 同 ， 易 于 产生 歧义 。 英 语 和 
汉语 中 的 不 少 歧义 都 是 由 于 介词 引起 的 ， 但 是 ， 歧 义 产生 的 条 件 并 不 完 
全 一 样 ， 这 是 汉语 与 英语 的 不 同 之 处 。 








(18) VP + ADJ+ 的 + N: 


ADJ 可 以 作为 VP 的 宾语 ， 述 宾 结 构 “V + AD 了 ”再 加 上 “的 ” 作 名 词 N 
的 定语 ， 整 个 结构 是 一 个 定 中 结构 ， 但 是 ，ADJ 也 可 以 加 上 “的 ”之 后 作 
为 名 词 N 的 定语 ，“ADJ + 的 + N” 整 个 名 词 词组 作为 VP 的 宾语 ， 整 个 结构 
是 一 个 述 宾 结构 。 因 此 ， 就 产生 了 定 中 一 述 宾 潜在 皮 义 。 


当 实 例 化 为 "喜欢 /干净 /的 /小 孩 ? 时 ， 可 理解 为 "喜欢 菜 一 个 干 究 的 小 
A GRA) ， 也 可 以 理解 < 茶 一 个 喜欢 干净 的 小 孩 ”〈 定 中 纺 
HD , HETERO BSE FN ER Xo 


当 实 例 化 为 “研究 /困难 /的 /问题 ?时 ， 只 能 理解 为 "研究 / 茶 些 困 难 的 
问题 ” “困难 的 问题 * 作 为 “研究 ”的 宾语 ， 形 成 述 宾 结 构 ， 潜 在 歧义 消 
失 。 





当 实 例 化 为 “显得 宽阔 的 街道 ?时 , “显得 宽阔 的 ”作为 "街道 ”的 定 
语 ， 形 成 定 中 结构 ， 潜 在 卜 义 也 消失 。 





(19) VP + N1 + 的 + N2: 


N1 作 为 VP 的 宾语 ， 述 宾 结 构 “VP + N1” 加 上 “的 ”之 后 ， 作 和 名词 N2 的 
定语 ， 整 个 结构 是 一 个 定 中 结构 ，N1 又 可 与 “能 ”结合 在 一 起 限定 N2， 
作 N2 的 定语 ，“N1 + 的 + N2” 这 个 名 词 词组 再 作为 VP 的 宾语 ， 整 个 结构 


是 一 个 述 宾 结构 ， 因 此 ， 产 生 定 中 一 述 宾 潜 在 歧义 。 


当 实 例 化 为 “ 咬 死 了 /猎人 /的 / 狗 * 时 ， 可 以 理解 为 “ 咬 死 了 一 只 猎人 的 
Jg", “猎人 的 狗 ” 作 *“ 咬 死 了 ?的 定语 ， 整 个 结构 是 述 宾 结构 ， 又 可 以 理 
解 为 “一 只 把 猎人 哎 死 的 狗 ”，“ 咬 死 了 猎人 ”是 “ 狗 * 的 定语 ， 整 个 结构 是 
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当 实 例 化 为 “ 咬 死 了 /猎人 /的 / 鸡 ” 时 ,， “猎人 的 鸡 ” 作 为 “ 咬 死 了 ”的 宾 
语 ， 整 个 结构 只 能 理解 为 述 性 结构 ， 潜 在 皮 义 消失 。 





当 实 例 化 为 “ 咬 死 了 /狐狸 /的 / 狗 ” 时 ,，“ 咬 死 了 狐狸 的 ”* 作 “ 狗 ” 的 定 
语 ， 整 个 结构 只 能 理解 为 定 中 结构 ， 洪 在 监 义 消 失 。 





当 实 例 化 为 “ 卖 掉 了 /猎人 /的 / 狗 ” 时 , “猎人 的 狗 ” 作 为 " 买 掉 了 ”的 宾 
语 ， 整 个 结构 只 能 理解 为 述 性 结构 ， 潜 在 上 义 消失 。 





当 实 例 化 为 “前 / 人 苹果/ 的 / 刀 ”， “前 人 苹果 的 ”作为 “ 刀 ” 的 定语 ， 整 个 结 
构 只 能 理解 为 定 中 结构 ， 潜 在 收 义 消失 。 





AKAN KIERA, “于 果 的 及 ”作为 “前 ”的 宾语 ， 整 个 
结构 只 能 理解 为 述 宾 结构 ， 洪 在 卜 义 消失 。 





(20) VP1 + VP2 + 的 + N: 


Foe et 这 个 述 宾 结构 再 加 上 “的 ” 作 名 词 N 的 定语 ， 
结构 形成 一 个 定 中 结构 ，VP2 又 可 以 与 “的 ”一 起 作 名 词 N 的 定语 ， 
Ru 'VP2 + 的 + N” 再 作为 VP1 的 宾语 ， 整 个 结构 形成 一 个 述 宾 
结构 ， 这 样 ， 就 产生 了 述 宾 一 定 中 潜在 卜 义 。 


当 实例 化 为 “看 /打球 /的 /同学 ?时 ， 可 以 理解 为 “看 /打球 的 同 


=", “打球 的 同学 ?” 作 VP1“ 看 ”的 宾语 ， 整 个 结构 是 述 宾 结构 : 又 可 以 理 
解 为 “看 打球 的 /同学 ” “看 打球 的 ” 作 名 词 “ 同 学 ”的 定语 ， 整 个 结构 是 定 
中 结构 ， 这 样 ， 湾 在 的 述 宾 一 定 中 攻 义 就 转化 成 现实 的 述 宾 一 定 中 歧 
义 。 





当 实 例 化 为 “练习 /跑步 /的 /运动 员 ”* 时 ， 只 能 理解 为 “练习 跑步 的 / 运 
zu". “练习 跑步 的 " 作 名 词 “ 运 动员 ”的 定语 。 整 个 结构 只 能 十 定 中 结 
构 ， 潜 在 歧义 消失 。 








当 实 例 化 为 “修改 /编写 /的 /程序 ”时 ， 只 能 理解 为 “修改 /编写 的 程 
HP", “编写 的 程序 ” 作 VP1“ 修 改 ” 的 宾语 ， 整 个 结构 是 一 个 述 宾 结 构 ， 洪 
在 歧义 消失 。 


(21) V + N1 + N2: 


N1 和 N2 可 以 分 别 作 V 的 宾语 ， 形 成 双 宾 语 结构 ， N1 叉 可 作 N2 的 定 
语 ， 组 成 “N1 + N2” 的 名 词 词组 作 V 的 宾语 ， 这 就 产生 了 双 宾 语 结 构 和 述 
宾 结 构 的 潜在 歧义 。 


当 实 例 化 为 “ 赠 /日 本 /图 书 ”， 可 以 把 “日 本 ”理解 为 “ 赠 ” 的 间接 宾 
语 ， 把 “图 书 ” 理 解 为 “ 赠 ” 的 直接 宾语 ， 整 个 结构 是 一 个 双 宾 语 结构 ， 叉 
可 以 把 “日 本 ”理解 为 “图 书 ” 的 定语 。“ 日 本 图 书 ” 理 解 为 “ 赠 ” 的 宾语 ， 整 
个 结构 是 一 个 述 宾 结 构 ， 这 样 ， 潜 在 歧义 束 转 化 成 了 现实 的 皮 义 。 





当 实 例 化 为 “修理 /木头 /架子 ”时 ， 只 能 把 “ 木 尖 果子 ”理解 为 “ 修 
理 * 的 宾语 ， 整 个 结构 是 一 个 述 宾 结构 ， 潜 在 卜 义 消失 。 


当 实 例 化 为 “ 交 / 老 师 / 作 业 本 * 时 ， 只 能 把 “老师 ”理解 为 “ 交 ” 的 间接 
宾语 ， 把 “作业 本 ”理解 为 直接 宾语 ， 整 个 结构 是 双 宾 语 结 构 ， 潜 在 歧义 


消失 。 
(22) V1+N+V2: 


N 可 与 V2 组 成 主 谓 结构 作 V1 的 宾语 ， 形 成 主 谓 结构 作 宾 语 的 述 宾 结 
构 ，N 又 可 作为 VI 的 宾语 ， 作 V2 的 主语 ， 形 成 兼 语 结构 ，N 和 V2 又 可 分 
别 作为 V1 的 宾语 ， 形 成 双 宾 语 结构 ，N 还 可 作为 V1 的 宾语 ， 与 V2 一 
起 ， 形 成 连 动 结构 。 这 样 ，“V1 + N + V2” 就 可 具有 述 宾 一 兼 语 一 双 宾 一 
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当 实 例 化 为 “希望 /小 王 / 来 "时,， “小 王 来 ”这 个 主 谓 结构 作为 动词 “ 希 
望 ”* 的 宾语 ， 形 成 述 宾 结 构 ， 不 能 解释 为 兼 语 、 双 宾 、 连 动 等 结构 ， 潜 
在 歧义 消失 。 

当 实 例 化 为 “请 /小 王 / 来 *? 时 ， 名 词 “小 王 ” 作 动词 “请 ”的 宾语 ， 叉 作 
动词 “来 ”的 主语 ， 形 成 兼 语 结构 ， 不 能 解释 为 述 宾 、 双 宾 、 连 动 等 结 
构 ， 潜 在 歧义 消失 。 





当 实例 化 为 “通知 /小 王 /开会 "时 ， 名 词 “小 王 * 和 动词 “开会 ”分 别 作 
为 动词 “通知 "的 宾语 ， 形 成 双 宾语 结构 ， 不 能 解释 为 述 宾 、 兼 语 、 连 动 
结构 ， 潜 在 歧义 消失 。 


当 实 例 化 为 “< 上 /图 书馆 /学 习 ” 时 ,， “上 图 书馆 ”与 “学 习 ” 形 成 连 动 结 
构 ， 不 能 解释 为 述 宾 、 兼 语 、 双 宾 结 构 ， 潜 在 歧义 消失 。 





(23) N+V+NP+AP: 


“N+ V+ NP” 可 形成 一 个 主 谓 宾 齐 全 的 句子 (小 句 ) ， 作 为 AP 的 主 
语 ，AP 作 为 它 的 谓语 ， 整 个 结构 是 一 个 主 谓 结构 ， 以 小 句 作 为 主 
iB; “NP + AP” 又 可 以 作为 一 个 主 谓 结 构 ， 充 当 动 词 V 的 宾语 ，N 作 V 的 





主语 ， 整 个 结构 成 为 一 个 主 谓 宾 齐 全 的 句子 ， 如 宋 不 管 主语 N， 则 “V + 
NP + AP" 形 成 一 个 述 宾 结构 :，N 作 主语 ，NP 可 作为 V 的 宾语 ， 又 作为 AP 
的 主语 ,“V + NP + AP" 形 成 兼 语 结构 ， 因 此， 便 可 产生 主 谓 〈 小 句 为 
主语 ) 一 述 宾 一 兼 语 的 潜在 歧义 。 








当 实 例 化 为 “ 张 三 / 笑 / 李 四 / 很 牺 * 时 ， 可 以 理解 为 “ 张 三 笑 李 四 ” 作 主 
语 ,，“ 很 牺 ” 作 谓语 ， 形 成 以 小 句 为 主语 的 主 谓 结构 ， 叉 可 以 理解 为 “ 张 
SIREW IRA”, “ 李 四 ?” 作 动词 “ 突 ” 的 宾语 ， 又 作 AP“ 很 条 ”的 主语 , "X 
李 四 很 符 ? 形 成 兼 语 结构 ， 但 这 时 “ 舌 李 四 很 举人 不 能 理解 为 述 宾 结 构 ， 
潜在 歧义 部 分 地 转化 为 现实 的 歧义 。 














当 实 例 化 为 “小 王 /说 /故事 /很 有 趣 ? 时 ， 可 以 理解 为 “小 王 说 故事 /很 
AR, “小 王 说 故事 ”作为 主语 ,， “很 有 趣 ” 作 谓语 ， 形 成 以 小 句 为 主语 
的 主 谓 结构 ， 又 可 以 理解 为 “小 王 说 /故事 很 有 趣 ” “故事 很 有 趣 ” 作 动 
词 “ 说 ”的 宾语 , “说 /故事 很 有 趣 ” 形 成 述 宾 结 构 ， 但 “说 故事 很 有 趣 ” 不 能 
理解 为 兼 语 结构 ， 潜 在 收 义 部 分 地 转化 为 现实 的 皮 义 。 


当 实 例 化 为 “他 / 考 /第 一 名 / 太 好 了 * 时 ， 只 能 把 “他 考 第 一 名 ”这 个 小 
句 理解 为 主语 ，“ 太 好 了 ”理解 为 谓语 ， 整 个 结构 只 能 理解 为 以 小 句 为 谓 
语 的 主 谓 结构 ， 洪 在 歧义 消失 。 





当 实例 化 为 “我 /以 为/ 你 /喜欢 * 时 ， 只 能 把 < 你 喜欢 "理解 为 动词 “以 
为 "的 宾语 ，“ 以 为 /你 喜欢 * 只 能 理解 为 述 宾 结构 ， 潜 在 歧义 消失 。 





当 实 例 化 为 “ 张 三 / 批 评 / 李 四 /不 用 功 ”* 时 ,“ 李 四 ” 作 动 词 “ 批 评 * 的 宾 
语 ， 又 作 AP“ 不 用 功 ” 的 主语 , “批评 李 四 不 用 功 ” 形 成 羔 语 结构 ， 潜 在 歧 
义 消失 。 


(24) N1 + 的 + N2 + 和 + N3: 


由 于 连词 < 和 ”管辖 领域 的 不 同 ， 其 层次 可 以 理解 为 INT + 的 + 
N2) + 和 + (N3) ， 也 可 以 理解 为 N1 + 的 + (N2 + 和 + N3) ， 从 而 产生 
潜在 歧义 。 


当 实 例 化 为 “眼镜 /的 / 框 子 /和 /镜片 "时 ， 可 以 理解 为 * (眼镜 的 框 
TO 和 《镜片 ) ”， 也 可 以 理解 为 “眼镜 的 〈 框 子 和 镜片 ) ”， 潜 在 歧义 
转化 为 现实 的 歧义 。 


当 实例 化 为 “眼镜 /的 / 框 子 / 和 /钢笔 时 ， 只 能 理解 为 “(眼镜 的 框 
T) 和 钢笔) ”， 潜 在 卜 义 消失 。 

(25) N1 + 和 + N2 + 的 + N3: 

由 于 连词 “和 ”管辖 领域 的 不 同 ， 其 层次 可 以 理解 为 ONT + 和 + 


N2) + 的 + N3， 也 可 以 理解 为 NE + 和 + (N2 + 的 + N3) ， 从 而 产生 潜在 
歧义 。 





当 实 例 化 为 “桌子 /和 /椅子 /的 / 腿 * 时 ， 可 以 理解 为 “(桌子 和 椅子 ) 
的 腿 *”， 也 可 以 理解 为 “全 子 和 椅子 的 腿 )”， 从 而 产生 潜在 卜 义 。 


当 实 例 化 “地 牧 / 和 /桌子 /的 / 腿 * 时 ， 只 能 理解 为 “地 悉 和 (桌子 的 
BB) ", 潜在 歧义 消失 。 

(26) N1 + ADJ+ 的 + N2: 

ADJ 可 与 N1 组 成 主 谓 结构 ， 与 “的 ”一 起 作 N2 的 定语 ， 其 层次 可 理解 
为 (N1 + ADD + 的 + N2;，ADJ 又 可 以 与 “的 ”一 起 作 N2 的 定语 ，“ADJ 


+ 的 + N2” 构 成 的 名 词 词组 受 N1 的 限制 和 修饰 ， 其 层次 可 以 理解 为 N1 + 
(ADJ+ 的 + N2) 。 


当 实 例 化 为 “营养 /丰富 /的 /晚餐 时， 其 层次 为 “(营养 丰富 〉 的 晚 
餐 ”"， 主 谓 结构 “营养 丰富 ”与 “的 ”一 起 作 “ 上 晚餐 ”的 定语 ， 潜 在 收 义 消失 。 














当 实 例 化 为 “< 中国 /丰富 /的 /资源 "时 ， 其 层次 为 “中 国 (丰富 的 资 
源 ) ", “中 国 * 作 “让 是 的 资源 ”的 定语 ， 潜 在 歧义 消失 。 

在 汉语 日 第 语言 中 的 同形 疏 义 结构 还 很 多 ， 以 上 只 是 举 出 主要 的 几 
种 来 说 明 ， 同 形 皮 义 结构 也 是 汉语 日 第 语言 中 普 衣 存在 的 现象 。 














从 以 上 论述 可 以 看 出 ， 尽 管 在 自然 语言 中 存在 大 量 的 同形 歧义 结 
构 ， 但 是 ， 它 们 的 PT- 结 构 痢 是 潜在 卜 义 结构 ， 在 PT- 结 构 实例 化 的 过 
程 中 ， 由 于 词汇 单元 的 插入 ， 使 得 许多 潜在 歧义 结构 未 能 转化 为 现实 的 
歧义 结构 ， 从 而 导致 潜在 卜 义 的 消失 。 这 说 明 目 然 语言 的 结构 在 其 实例 
化 过 程 中 有 一 种 自行 消解 收 义 的 功能 ， 正 是 由 于 这 种 自行 消解 皮 义 的 功 
能 的 作用 ， 尺 管 在 自然 语言 中 存在 大 量 的 潜在 收 义 结构 ， 但 在 具体 的 语 
言 活动 中 ， 许 多 潜在 上 收 义 都 目 行 消解 了 ， 正 是 因为 这 个 原因 ， 目 然 语言 
仍然 能 够 完成 其 交流 思想 的 功能 ， 不 至 于 处 处 产生 皮 义 ， 引 起 误解 。 
































可 见 ， 自 然 语言 有 歧义 性 (ambiguity) W — m, MATEO PE 
(non-ambiguity〉 的 一 面 ， 自 然 语言 中 充满 着 潜在 卜 义 ， 是 它 的 歧义 性 
的 表现 ， 而 自然 语言 的 这 种 自行 消解 上 疏 义 的 功能 ， 义 是 它 的 非 歧 义 性 的 
表现 。 我 们 提出 的 “潜在 歧义 论 ”， 正 好 揭示 了 自然 语言 的 这 种 歧义 性 和 
非 靶 义 性 对 立 统一 的 规律 性 。 





我 们 在 自然 语言 处 理 中 ， 有 必要 利用 “潜在 玫 义 论 ” 的 基本 原理 ， 殉 
服 目 然 语 言 的 歧义 性 ， 增 加 目 然 语言 的 非 琉 义 性 ， 从 而 提高 目 然 语言 处 
理 系统 的 效能 。 











第 四 万 ”结构 监 义 消 解 的 方法 


我 们 在 第 二 章 中 讨论 了 词义 排 歧 的 方法 ， 这 是 关于 词汇 蚊 义 的 消解 
方法 ; 现在 我 们 讨论 结构 卜 义 的 消解 方法 。 





在 自然 语言 处 理 的 研究 中 ， 早 在 20 世 纪 60 年 代 ， 美 国 哈佛 大 学 教授 
久 野 (Susumu Kuno) 就 提出 了 结构 歧义 消解 〈disambiguity) 的 问题 。 





久 野 指出， 英语 句子 “Time flies like an arrow” 有 若干 个 歧义 的 分 析 
结果 。 因 为 time 可 以 为 名 词 ( 词 义 为 “时 间 ”) ， 也 可 以 为 动词 〈 词 义 
为 “测定 、 拨 准 ” 等 ) ， 还 可 以 为 形容 词 〈 词 义 为 “定期 的 ”>”，fles 可 以 
为 动词 现在 时 单数 第 三 人 称 〈 词 义 为 "人 ) ， 也 可 以 为 名 词 复 数 《〈 词 义 
JE”) ，like 可 以 为 动词 〈 词 义 为 “喜欢 ”>) ， 也 可 以 为 介词 (词义 
为 “如 ， 像 ”>) 。 这 样 ， 这 些 词 可 以 组 成 结构 各 不 相同 的 句子 ， 形 成 歧义 
i) 








其 含义 分 别 为 : 


GO 时 间 像 箭 一 样 飞驰 ; 
@ 测 量 那些 像 箭 一 样 的 苍蝇 ; 
@@ 叫 做 Time 的 那 只 苍蝇 喜欢 箭 。 


学 者 们 普通 感觉 到 ， 结 构 歧 义 是 语言 自动 分 析 的 一 个 玉手 问题 。 然 
而 ， 从 潜在 监 义 论 可 知 ， 目 然 语言 本 身 在 PT- 结构 的 实例 化 过 程 中 ， 有 
目 行 消解 蚊 义 的 功能 ， 我 们 只 要 目 党 地 利用 这 种 功能 ， 就 有 可 能 达到 部 
分 地 消解 上 收 义 的 目的 。 





我 们 认为 ， 目 前 在 目 然 语言 的 计算 机 处 理 中 ， 普 表 采 用 的 结构 下 义 
消解 方法 ， 归 纳 起 来 不 外 两 种 : 一 种 是 基于 “制约 ”(constraint) 的 歧义 
消解 方法 ， 一 种 是 基于 “优选 ”(preference) 的 歧义 消解 方法 。 


所 谓 基 于 “制约 ”的 歧义 消解 方法 ， 就 是 利用 句法 、 语 义 制约 条 件 ， 
排除 不 能 满足 制约 条 件 的 结构 ， 从 而 达到 歧义 消解 的 目的 。 





在 PT- 结 构 实 例 化 过 程 中 ， 由 于 词汇 单元 之 间 句 法 条 件 的 制约 ， 往 
往 能 够 消解 歧义 。 例 如 ， 汉 语 中 “数量 结构 + NP1 + 的 + NP2” 这 样 的 潜在 
歧义 结构 ， 可 以 解释 为 “(数量 结构 + NP1) + 的 + NP2”， 也 可 以 理解 
为 “数量 结构 + (NP1 + 的 + NP2) ”。 如 果 数 量 结构 中 的 量词 既 能 限定 
NP1， 义 能 限定 NP2， 那 就 必定 会 产生 歧义 ; 但 是 ， 如 果 我 们 根据 NP1 
及 NP2 的 性 质 ， 对 数量 结构 中 的 量词 作 进一步 的 “再 分 
类 ”(subcategorization) ， 使 得 数量 结构 中 的 这 个 量词 不 能 同时 限定 
NP1 及 NP2， 便 可 以 消除 上 政 义 。 




















当 这 个 PT- 结构 实例 化 为 “三 个 学 校 的 实验 员 ” 时 ， 由 于 量词 “个 ” 既 
可 以 限定 NP1“ 学 校 >， 又 可 以 限定 NP2“ 实 验 员 ”， 因 而 不 能 消除 歧义 。 


根据 汉语 的 语法 知识 我 们 知道 , “学 校 ” 的 量词 一 般 为 “所 ”， “实验 
员 ” 的 量词 一 般 为 “位 >， 据 此 我 们 对 量词 做 再 分 类 ， 把 “学 校 ” 的 量词 规 
定 为 “所 ”， 将 上 述 把 PT- 结 构 实 例 化 为 “三 所 学 校 的 实验 员 ”， 由 于 量 
词 “ 所 * 不 能 限定 NP2“ 实 验 员 *， 其 结构 只 能 理解 为 “(三 所 学 校 ) 的 实验 
员 ”， 歧 义 得 到 消解 ;我 们 如 果 把 “实验 员 ” 的 量词 规定 为 “位 >， 将 上 述 
PIT- 结构 实例 化 为 “三 位 学 校 的 实验 员 ”， 由 于 量词 “位 ?不 能 限定 NP1“ 学 
交 ”， 其 结构 只 能 理解 为 “三 位 《学校 的 实验 员 ) ” 歧义 也 可 得 到 消 
解 。 




















采用 这 样 的 再 分 类 的 办 法 ， 不 仅 把 量词 分 为 看 干 小 类 ， 还 可 以 把 名 
词 分 为 耕 干 小 类 ， 把 形容 词 分 为 耕 干 小 类 ， 把 动词 分 为 天干 小 类 ， 然 后 
引出 ， 哪 些小 类 可 以 跟 哪些 小 类 组 合 ， 哪 些小 类 不 能 跟 哪 些小 类 组 合 ， 
便 可 以 在 潜在 皮 义 结构 实例 化 的 过 程 中 ， 利 用 这 样 的 句法 制约 条 件 ， 达 
到 消解 收 义 的 目的 。 


除了 再 分 类 之 外 ， 还 可 以 根据 其 他 的 句法 关系 来 消解 结构 牙 义 。 


在 英语 中 ,，“Look at the pages of the book which are written by 
him" CE-A BPESA LV TEZETJ E88 EX X, Which-JÁ 
名 “which are written by him” 可 能 修饰 the book， 也 可 能 修饰 he pages. te 
据 “ 从 句 中 名 词 的 数 应 该 与 被 修饰 的 名 词 一 致 * 这 样 的 句法 关系 ， 从 句 中 
Hare written， 是 复数 ， 故 被 其 修饰 的 名 词 应 该 为 复数 ， 不 可 能 是 the 
book， 而 应 该 是 the pages。 根 据 这 样 的 句法 条 件 ， 卜 义 得 以 消解 。 











句法 的 制约 条 件 有 时 显得 过 于 烦琐 ， 如 果 在 PT- 结 构 实 例 化 过 程 中 
利用 词汇 单元 之 间 的 语义 制约 条 件 ， 往 往 能 够 更 加 便捷 地 消除 结构 歧 
Aa 





“VP + N1 + 的 + N2” 这 样 的 潜在 歧义 结构 ， 其 层次 可 以 理解 为 * CVP 
+N1+ 的 ) +N2”, (VP + N1 + 的 ) 作 N2 的 定语 ， 是 定 中 结构 ， 也 可 以 
理解 为 “VP + (N1 + 的 + N2) ”， (N1 + 的 + N2)〉 作 VP 的 定语 ， 是 述 宾 
结构 ， 这 就 产生 了 潜在 歧义 。 


这 种 潜在 收 义 要 转化 为 现实 皮 义 必须 同时 满足 如 下 三 个 语义 制约 条 
s 


CON1 在 语义 上 可 以 作 VP 的 受 事 ; 


Q@N2 在 语义 上 可 以 作 VP 的 受 事 ， 当 N1 为 VP 的 受 事 时 ，N2 又 可 作 
VP 的 施 事 ; 


GN1 与 N2 之 间 在 语义 上 存在 领 属 和 被 领 属 的 关系 ，N1 是 领 属 者 ， 
N2 是 被 领 属 者 。 

如 果 “VP + N1 + 的 + N2” 实 例 化 之 后 ， 可 以 同时 满足 上 述 语 义 制约 
三 个 条 件 ， 潜 在 歧义 便 有 可 能 转化 为 现实 的 歧义 。 


当 实 例 化 为 “ 咏 死 了 猎人 的 狗 ” 时 ， 恰 好 满足 上 述 三 个 语义 制约 条 
Jis 


OD" 猎 人" 在 语义 上 可 以 作 “ 咬 死 了 ”的 受 事 ， 我 们 可 以 说 < 咬 死 了 儿 
Ax 


@@“ 铬 ”在 语义 上 可 以 作 “ 咬 死 了 ”的 受 事 ， 当 “猎人 ” 作 “ 咬 死 了 ”的 受 
事 时 ,“ 狗 ”又 可 以 作 “ 咬 死 了 ”的 施 事 ， 我 们 可 以 说 “(什么 〉 咬 死 了 
狗 ”， 又 可 以 说 “ 狗 咬 死 了 《什么 ) ”。 


(“猎人 ”与 “ 狗 ” 之 间 ， 在 语义 上 存在 着 领 属 和 被 领 属 的 关系 ,“ 狂 
人 ”是 领 属 者 ,“ 狗 ”是 被 领 属 者 。 我 们 可 以 说 “猎人 的 狗 ”。 


因此 ,“ 哎 死 了 猎人 的 狗 * 可 以 理解 为 “<( 咬 死 了 狂人 的 ) 狗 ”( 定 中 
结构 )， 又 可 以 理解 为 “ 哎 死 了 (猎人 的 狗 ) ”( 述 宾 结 构 )， 潜 在 歧义 
转化 为 现实 蚊 义 。 


如 果 在 实例 化 时 ， 不 能 同时 满足 上 述 三 个 语义 制约 条 件 ， 潜 在 卜 义 
就 不 能 转化 为 现实 歧义 ， 上 义 得 以 消解 。 


当 实 例 化 为 “ 咬 死 了 猎人 的 鸡 * 时 ， 满 足 语义 制约 条 件 、@@): 


QD“ 猎 人 ”在 语义 上 可 以 作 “ 咬 死 了 ”的 受 事 ， 我 们 可 以 说 “ 咬 死 了 猎 
AU 


BB“ 猎人 ”与 “ 鸡 ” 之 间 ， 在 语义 上 存在 着 领 属 和 被 领 属 的 关系 ,“ 狂 
人 ”是 领 属 者 ,，“ 鸡 ”是 被 领 属 者 ， 我 们 可 以 说 “猎人 的 鸡 ”。 

但 不 能 满足 语义 制约 条 件 忆 : 

“ 鸡 ” 可 以 作 “ 咬 死 了 ”的 受 事 ， 但 是 ， 当 “猎人 ” 作 “ 咬 死 了 ”的 受 事 
时 ，“ 鸡 ”在 语义 上 不 能 作 “ 咬 死 了 ”的 施 事 。 从 语义 上 来 考虑 ， 我 们 不 能 
说 “ 鸡 咬 死 了 猎人 ”因为 在 一 般 情况 下 ， 一 只 小 小 的 鸡 是 没有 足够 的 能 
力 咬 死 猎人 的 。 


由 于 不 能 满足 语义 制约 条 件 书 ， 这 个 句子 只 能 理解 为 “ 咬 死 了 (猎人 
的 鸡 )， 这 是 一 个 述 宾 结构 ， 层 义 得 以 消解 。 


当 实 例 化 为 “ 咬 死 了 狐狸 的 狗 ” 时 ， 满 足 语义 制约 条 件 轴 、@): 


GD“ 狐狸 ”在 语义 上 可 以 作 * 咬 死 了 ”的 受 事 ， 我 们 可 以 说 “ 咬 死 了 狐 
JE”, 


@“ 铬 ”在 语义 上 可 以 作 “ 咬 死 了 ”的 受 事 ， 当 “狐狸 " 作 “ 咬 死 了 ”的 受 
事 时 ,“ 狗 ”在 语义 上 可 以 作 “ 哎 死 了 ”的 施 事 ， 我 们 可 以 说 “ 狗 咬 死 了 狐 
狸 ”。 


但 不 能 满足 语义 制约 条 件 G): 








“狐狸 与“ 狗 ” 之 间 ， 在 语义 上 不 存在 领 属 与 被 领 属 的 天 系 ， 在 一 般 
情况 下 ， 我 们 不 能 说 “狐狸 的 狗 ”。 


由 于 不 能 满足 语义 制约 条 件 @， 这 个 句子 只 能 理解 为 “<( 咬 死 了 狐 
FEA) 狗 *”， 这 是 一 个 定 中 结构 。 


当 实 例 化 为 “ 卖 掉 了 猎人 的 狗 ” 时 ， 只 能 满足 语义 制约 条 件 @): 








“猎人 ?与 “ 狗 ” 之 间 ， 在 语义 上 存在 领 属 与 被 领 属 的 关系， 我 们 可 以 
说 “猎人 的 狗 ”。 


— 


日 是 ， 不 能 满足 语义 制约 条 件 山 、@): 


© 


“猎人 ”在 语义 上 不 能 作 “ 卖 挥 了 ”的 受 事 ， 说 “ 卖 挥 了 狂人 ”， 在 语 
义 上 是 欧 雇 的 ， 因 为 在 现代 社会 中 , “猎人 ”是 不 能 作为 商品 出 售 的 ; 





@“ 铬 ”在 语义 上 可 以 作 “ 卖 掉 了 ”的 受 事 ， 我 们 可 以 说 “ 卖 挥 了 狗 ”， 
但 是 ， 就 是 寻 且 当 “ 狂 人 ”可 以 作 “ 卖 挥 了 ”的 受 事 时 (这 在 语义 上 是 不 可 
能 的 ) ，“ 铬 ”在 语义 上 也 不 能 作 “ 卖 挥 了 ”的 施 事 ， 说 “ 狗 卖 挥 了 猎人 >”， 
TES X. Et XE SEE HT e 


由 于 不 能 满足 语义 制约 条 件 凡 入， 这 个 句子 只 能 理解 为 “ 卖 掉 了 
(狂人 的 狗 )”， 这 是 一 个 述 宾 结构 。 

采用 语义 制约 条 件 来 进行 上 收 义 消解 ， 显 得 很 方便 ， 很 有 效 。 赵 元 任 
先生 认为 讲 意 义 是 “ 抄 近 路 ” Dl ”， 吕 朴 湘 先生 认为 “意义 "有 时 候 有 “ 速 
记 ” 的 作用 里， 这 对 于 我 们 研究 语义 制约 条 件 是 很 有 启发 的 。 





“VP + 数量 结构 + NP” 这 个 潜在 歧义 结构 ， 其 层次 有 时 可 以 理解 
为 “(VP + 数量 结构 ) + NP”， 数 量 结构 作 VP 的 补 语 ， 有 时 可 以 理解 
为 “VP + (数量 结构 + NP) ”， 数 量 结构 作 NP 的 定语 。 


对 于 这 样 的 潜在 歧义 结构 ， 我 们 可 以 采用 人 句法 制约 条 件 ， 对 量词 进 


一 步 作 再 分 类 ， 然 后 ， 说 明 哪 些 量词 能 与 哪些 动词 结合 形成 述 补 结构 ， 
哪些 量词 与 哪些 名 词 结合 形成 定 中 结构 ， 束 可 以 进行 层 义 消解 。 但 是 ， 
这 样 做 比较 烦 玉 ， 如 果 采 用 语义 制约 条 件 ， 根 据 语 义 上 是 售 成 立 来 判断 
能 人 否 形成 监 义 ， 从 而 达到 攻 义 消解 的 目的 ， 束 显得 更 加 便捷 。 








例如 ， 当 实例 化 为 “ 讲 了 三 年 历史 ”时 ， 可 以 理解 为 “<( 讲 了 三 年 ) 
A”, “三 年 ” 作 “ 讲 了 ”的 补 语 ， 表 示 讲 历史 讲 了 三 年 ， 也 可 以 理解 
为 " 讲 了 《三 年 历史 》” “See eRe, “SE Bese 
了 ”的 宾语 ， 表 示 讲 了 三 年 之 内 的 历史 ， 这 时 ， 潜 在 卜 义 转化 为 现实 歧 
义 。 如 果 把 “三 年 ” 换 成 “三 干 年 "， 实 例 化 为 “ 讲 了 三 干 年 的 历史 ”， 则 只 
能 理解 为 “ 讲 了 【三 千年 的 历史 ) ”，“ 三 千年 ?只 能 理解 为 “历史 ”的 定 
语 ， 而 不 能 理解 为 “ 讲 了 ”的 补 语 ， 因 为 从 语义 上 来 看 ,，“ 讲 了 三 干 年 在 
语义 上 是 荒 雇 的。 这样， 只 需 把 “三 年 " 换 成 “三 千年 "， 便 可 以 直截了当 
地 消解 收 义 。 由 此 可 见 ， 使 用 语义 制约 条 件 的 便捷 之 处 。 


目 然 语言 处 理 中 普 衣 采用 的 为 一 种 结构 皮 义 消解 的 方法 是 基于 “ 优 
选 * 的 卜 义 消解 方法 。 








所 谓 “ 优 选 "， 就 是 在 天干 个 存在 卜 义 的 候补 结构 中 ， 选 出 一 个 最 优 
的 结构 ， 从 而 达到 歧义 消解 的 目的 。 


早 在 1975 年 ， 威 尔 克 斯 束 提 出 了 “优选 语义 学 ”(preference 
semantics) ， 用 优选 的 方法 来 判定 多 义 词 的 优先 度 。 关 于 优选 语义 学 ， 
我 们 在 第 二 章 中 已 经 介绍 过 了 ， 效 不 蒙 述 。 











对 于 具有 潜在 收 义 的 若干 个 候补 结构 ， 也 可 以 根据 候补 结构 的 优先 
度 来 进行 优选 ， 消 解 皮 义 。 


前 面 我 们 说 过 ，“N +V + NP + AP” 这 个 潜在 歧义 结构 ， 其 层次 可 以 


解释 为 ” CN+V+NP) + AP”， 是 一 个 以 小 句 为 主语 的 主 谓 结 构 ， 又 可 
以 解释 为 " (N) + CV) + (NP + AP)”, Hou CV) + (NP + 
AP) ”是 一 个 述 宾 结构 ， 又 可 以 解释 为 “(N) + CV) + CNP) + 

(AP) ”， 其 中 的 “(V) + (NP + AP) ”是 一 个 兼 语 结构 ， 这 样 ，“N + 
V+ NP + AP” 便 具有 主 谓 〈 以 小 句 为 主语 ) IRR FETE. 








海外 有 的 学 者 根据 中 国人 讲 汉语 时 的 语感 指出 ， 在 这 样 的 潜在 歧义 
结构 中 ， 逻 辑 主 项 (argument reading) 的 结构 应 该 优先 于 逻辑 附加 项 
(adjunct reading) 的 结构 4! 。 兼 语 结构 和 述 宾 结构 都 是 属于 逻辑 主 项 
的 结构 ， 而 以 小 句 为 主语 的 主 谓 结 构 ， 其 谓语 为 AP，AP 是 逻辑 附加 
项 ， 因 而 应 该 属于 逻辑 附加 项 的 结构 。 这 样 ， 兼 语 结 构 和 述 宾 结构 的 优 
先 度 应 大 于 以 小 句 为 主语 的 主 谓 结构 的 优先 度 。 当 出 现 歧 义 时 ， 应 该 优 
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这 样 ， 当 PT- 结 构 “N + V + NP + AP” 实 例 化 为 “ 张 三 笑 李 四 很 
笨 ” 时 ， 可 以 理解 为 * 张 三 / 笑 李 四 很 策 ”,“ 笑 / 李 四 / 很 条 ”是 一 个 兼 语 结 
构 ， 又 可 以 理解 为 “ 张 三 笑 李 四 / 很 第 ”， 这 是 以 小 句 “ 张 三 笑 李 四 ”为 主语 
的 主 谓 结构 。 根 据 兼 语 结构 的 优先 度 应 大 于 以 小 句 为 主语 的 主 谓 结构 的 
优先 度 的 原则 ， 应 该 选取 兼 语 结构 ， 排 除 以 小 句 为 主语 的 主 谓 结构 。 




















当 实 例 化 为 “小 王 说 故事 很 有 趣 ?时 ， 可 以 理解 为 “小 王 说 /故事 很 有 
趣 ”， “说 /故事 很 有 趣 ” 是 一 个 述 宾 结构 ， 也 可 以 理解 为 “小 王 说 故事 /很 
有 趣 ?， 是 一 个 以 小 句 为 主语 的 主 谓 结 构 。 根 据 述 宾 结 构 的 优先 度 应 大 
于 以 小 句 为 主语 的 主 谓 结 构 的 优先 度 的 原则 ， 应 该 选取 述 宾 结构 ， 排 除 
以 小 句 为 主语 的 主 谓 结构 。 





























根据 说 话 人 的 语感 来 规定 结构 的 优先 度 并 不 是 很 科学 的 。 在 上 面 的 
例子 中 ， 把 “ 张 三 笑 李 四 很 牺 ” 中 的 “ 笑 / 李 四 /很 共 ” 理 解 为 兼 语 结构 ， 








把 “小 王 说 故事 很 有 趣 ” 中 的 “说 /故事 很 有 趣 * 理 解 为 述 宾 结 构 ， 在 许多 场 
合 是 正确 的 ， 但 并 不 能 绝对 地 排除 把 “ 张 三 笑 李 四 很 沦 ? 和 ?小 王 说 故事 
很 有 趣 ? 理 解 为 以 小 句 为 主语 的 主 谓 结构 的 可 能 性 。2007 年 4 月 在 伊 明 发 
生 的 英国 水 兵 事 件 ， 报 载 新 闻 题 目 “ 天 国 水 兵 出 售 新 闻 很 丢脸 *"， 显 然 应 
当 理 解 为 主 谓 结构 “英国 水 兵 出 售 新 闻 ” 这 个 小 句 是 主语 , “很 丢脸? 征调 
语 。 可 见 不 能 随便 排除 作为 小 句 的 主 谓 结构 做 主语 的 可 能 性 。 因 为 语感 
上 的 优先 度 只 是 表明 了 茶 种 选择 的 可 能 性 ， 并 不 能 绝对 地 表明 这 种 选择 
的 合理 性 和 现实 性 。 语 感 上 的 优先 度 往往 有 着 强烈 的 主观 色彩 ， 常 党 
人 而 异 ， 难 免 有 见仁见智 之 弊 。 


























国外 学 者 们 提出 了 一 些 卜 义 结构 的 排 上 层 原 则 ， 主 要 有 “最 小 附着 原 
则 ”和 “ 石 联想 原则 。 这 些 原则 也 是 基于 “优选 ”的 。 分 别 介绍 如 下 : 





最 小 附着 原则 (Minimal Attachment) 





1978F, HB (Frazier) 和 弗 托 就 提出 了 “最 小 附着 原 
Wj” (principle of minimal attachment) 来 进行 附着 关系 的 排 牙 。 最 小 附 
着 原则 假定 : 如 果 某 个 结 点 存在 两 种 不 同 的 附着 关系 ， 那 么 ， 优 先 的 附 
着 是 最 小 附着 ， 所 谓 “ 最 小 附着 ”， 束 是 该 结 点 的 附着 结构 中 具有 较 少 结 
点 的 附着 结构 。 

















例如 ， 在 句子 “John hid the photo in the drawer” 中 ， 动 词 “hid” 存 在 附 
ZEE X: 一 种 附着 是 NP (the photo) + PP (in the drawer) ， 这 时 ，NP 
是 它 的 宾语 ，PP 是 它 的 地 点 状语 ; 一 种 附着 是 NP (the photo in the 
drawer) ， 这 时 ，NP 作 为 它 的 宾语 。 由 于 NP + PP 附着 包含 4 个 结 点 ， 而 
NP 附着 包含 5 个 结 点 ， 所 以 ， 选 择 NP + PP 附着 作为 优先 的 附着 。 如 图 
5.18 T. 


hid Det N in the drawer 


the photo 
(NP+PP 附 着 包含 4 个 结 点 ， 用 黑体 字符 表示 ) 





| 
photo 2 


in the drawer 


(NP 附 着 包括 5 个 结 点 ， 用 黑体 字符 表示 ) 
图 5.18 ”最 小 附着 原则 











上 面 一 个 树 形 图 中 附着 于 动词 “hid” 的 结 点 有 4 个 ， 下 面 一 个 树 形 图 
中 附着 于 动词 “hid” 的 结 点 有 5 个 ， 根 据 “ 最 小 附着 原则 ”， 选 择 上 面 一 个 
树 形 图 作为 正确 的 分 析 结 琳 。 这 个 句子 的 意思 是 “John 把 照片 藏 在 抽 屠 
里 ”， 而 不 是 “John 把 在 抽 导 里 的 照片 藏 起 来 了 ”。 这 样 的 选择 与 人 的 语 
感 很 接近 。 因 为 人 也 倾 癌 于 “John 把 照片 藏 在 抽 屠 里 ?这样 一 种 更 加 合 卑 
情理 的 选择 。 





最 小 附着 原则 显然 与 语法 规则 指派 给 句子 的 结构 形式 有 关 。 在 一 般 
情况 下 ， 这 个 原则 运用 于 那些 具有 知 干 个 子 结 点 的 规则 。 如 有 果 语 法 的 规 
则 具有 和 弄 姆 斯 基 范 式 〈 规 则 是 二 分 的 ) ， 显 然 就 很 难 使 用 最 小 附着 原 
则 。 








一 一 右 联 想 原 则 (Right Association) 


1973 年 ， 金 补 尔 Kimball〉 提 出 神 析 的 7 项 原则 ， 其 中 一 条 原则 
古 “ 右 联想 原则 ?: 附着 于 剖析 树 右 侧 的 位 置 最 低 的 当前 成 分 优先 于 剖析 
树 中 位 置 较 高 的 其 他 成 分 。 


根据 “ 右 联想 原则 ”， 图 5.19 中 的 “yesterday” 应 该 优先 修饰 <arrived”， 
而 不 是 修饰 “thought”。 


S 
NP VP 
Lorna V S 
| P 
thought NP VP 
Ron i T 
V yesterday 
arrived 





图 5.19 A AE Js 





然而 ， 如 果 我 们 使 用 “ 右 联想 原则 ?来 分 析 句 子 “John hid the photo in 
the drawer”， 则 优先 的 选择 应 该 是 “John 把 在 抽 居 里 的 照片 藏 起 来 了 ”， 
而 不 是 “John 把 照片 藏 在 抽 居 里 *"。 这 样 的 结论 与 使 用 “最 小 附着 原则 ”的 


结论 正好 相反 。 


由 此 可 见 ， 国 外 学 者 们 提出 的 这 些 优先 原则 能 够 局 发 我 们 做 出 茶 种 
推测 ， 但 是 并 不 能 让 我 们 做 出 切实 可 徘 的 推测 。 





在 实际 的 自然 语言 处 理 系统 中 ， 常 肖 把 基于 “制约 ”的 收 义 消解 方法 
和 基于 “优选 ?的 歧义 消解 方法 络 合 起 来 ， 用 基于 “制约 ”的 方法 排除 那些 
不 能 满足 制约 条 件 的 歧义 ， 用 基于 “优选 ”的 方法 比较 各 种 收 义 的 优先 
度 ， 选 取 其 中 的 最 优 者 ， 从 而 达到 歧义 消解 的 目的 。 





自从 20 世 纪 80 年 代 马 丁 : 纪 依 提出 功能 合 一 语法 〈Functional 
Unification Grammar) P! 以 来 ， 在 自然 语言 处 理 系统 中 普遍 采用 复杂 特 
征集 和 合 一 运算 的 方法 。 人 们 发 现 ， 在 自然 语言 分 析 系 统 中 ， 随 着 分 析 
的 进行 ， 包 含 在 自然 语言 中 的 信息 是 单调 递增 的 ， 这 就 是 自然 语言 分 析 
系统 中 信息 的 “单调 递增 性 ”(information monotonicity) 。 

















根据 这 种 信息 的 单调 递增 性 ， 有 的 学 者 提出 ， 对 自然 语言 分 析 过 程 
中 出 现 的 下 义 ， 应 该 做 渐进 的 评价 CGncremental evaluation) 。 有 的 学 者 
提出 了 “渐进 上 玫 义 消解 法 ”(incremental disambiguation) 。 


他 们 主张 ， 当 出 现 卜 义 时 ， 不 要 匆忙 地 作出 评价 ， 等 到 目 然 语言 分 
析 系 统 中 的 信息 单调 递增 到 可 以 对 这 种 监 义 进行 判断 时 ， 再 作出 判断 ， 
从 而 消解 歧义 。 





在 PT- 结 构 实 例 化 过 程 中 ， 由 于 词汇 单元 的 插入 ， 其 信息 也 是 单调 
递增 的 ， 因 此 ，PT- 结 构 实例 化 过 程 也 具有 信息 的 单调 递增 性 ， 我 们 同 
样 可 以 采用 渐进 皮 义 消解 法 。 在 信息 不 充分 条 件 不 成 熟 时 ， 不 必 和 匆忙 地 
消解 发 义 ， 等 到 信息 单调 递增 到 足以 满足 各 种 制约 条 件 和 优选 的 标准 
时 ， 才 进行 歧义 的 消解 。 





在 上 自然 语言 处 理 中 ， 同 形 歧 义 的 目 动 消解 还 是 一 个 未 彻底 解决 的 问 
Ë, LA TRIERA RRE o 
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在 自然 语言 自动 剖析 的 过 程 中 ， 有 必要 保存 一 些 中 间 结 果 以 及 关于 
结构 分 析 的 某 些 试探 性 的 假设 ， 以 便 为 尔后 的 自动 剖析 提供 有 用 的 信 
居 ， 因 此 ， 学 者 们 提出 了 “ 良 构 子 串 表 ” CWell-Formed Substring Table, 
简称 WFST) 与 “ 线 图 ”。 本 章 介 绍 与 此 有 关 的 一 些 方法 。 
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为 了 讨论 的 方便 ， 我 们 在 下 面 描述 短语 结构 语法 时 ， 一 般 只 写 出 其 
重 写 规则 和 单词 中 的 信息 ， 不 再 写 出 短语 结构 语法 中 的 其 他 部 分 。 





如 果 在 英语 中 有 如 下 的 短语 结构 语法 ， 其 重 写 规 则 和 单词 信息 为 : 
一 一 规则 : 


(DS - NP VP 

(2VP = IV 

(SVP 5 IV PP 

(VP > TV NP 

(SVP 5 TV NP PP 

©VP 5 TV NP VP (动词 短语 VP 作 补 语 ) 
@ NP > Det N 

NP — Det N PP 

(8) PP = P NP 


其 中 ，IV 表 示 不 及 物 动词 ，TV 表 示 及 物 动词 。 
一 单词 ; 


the: «cat^ = Det 
her: «cat» = Det 
her: «cat» = NP 

they: «cat» = NP 


nurses: «cat» = NP 

nurse: «cat? = N 

book: «cat»? = N 

travel: «cat? = N 

report: «cat» = N 

report: «cat? =IV〈 作 报告 ) 
hear: <cat> - TV 

see: «cat» = IV 


on: «cat» = Prep 
这 个 短语 结构 语法 可 以 生成 如 下 的 英语 句子 : 


Nurses hear her 
(保育 员 们 听 她 的 话 ) 

The nurses report 
(保育 员 们 做 汇报 ) 

They see the book on the nurses 
《他 们 看 关于 护理 的 书 ) 

They hear her report on the nurses 


他们 听 她 的 关于 护理 的 报告 ) 


如 果 对 “They saw the nurses repor” iX NAJT AMA FAT, EF] 
定 了 They 为 主语 之 后 ， 其 余部 分 的 搜索 树 如 图 6.1 所 示 “〈 为 简单 计 ， 用 s 
表示 saw， 用 t 表 示 the， 用 n 表 示 nurses， 用 I 表示 report) 。 这 一 部 分 主要 
是 分 析 VP: stnr， 根 据 短 语 结构 语法 中 的 规则 2, 4, 5, 6， 可 以 形成 4 个 子 
树 : IV: stnr, TV NP: stnr, TV NP PP: stnr, TV NP VP: stnr. 


(a) VP: stnr 


sh 3 


TV: stnr TV NP: stnr TV NP PP: stnr TV NP VP:stnr 





DN PP:tnr D NPP PP:tnr 
T" m 
4. wk I 
n" "- 





图 6.1 搜索 树 中 的 一 个 部 分 











在 搜索 第 二 个 子 树 VP: stnr 时 ， 主 要 的 力量 用 于 搜索 在 及 物 动词 
saw 之 后 的 名 词 词 组 NP， 从 图 6.1 (a) 中 圆圈 内 的 部 分 可 以 看 出 ， 其 中 
的 一 部 分 搜索 操作 可 表示 为 如 下 的 树 : 


D N PP:tnr 


N PP:nr 


PP 


PNP:r 

在 搜索 第 三 个 子 树 TV_NP PP: stnr 时 ， 会 产生 如 图 6.1 (b) 中 的 搜 
索 子 树 ， 可 以 看 出 ， 树 的 左边 部 分 与 图 6.1 Ca) 圆圈 中 的 树 完全 相同 ， 
而 这 个 搜索 子 树 的 右边 部 分 ， 与 图 6.1 (a) 圆圈 中 的 树 相 比 ， 只 是 
在 “: ”的 前 面 ， 多 出 了 一 个 PP 而 已 。 这 意味 着 ， 在 找 查 第 三 个 搜索 子 树 
时 ， 将 要 重复 在 第 二 个 搜索 子 树 所 进行 的 同样 的 搜索 操作 ， 在 找 查 第 四 
个 搜索 子 树 TV NP VP: stnr 时 ， 在 “: ”号 之 前 多 出 了 一 个 VP， 其 余部 分 
与 图 6.1 Ca) 圆圈 中 的 树 完 全 相同 ， 也 仍然 要 重复 在 第 二 个 搜索 子 树 中 
所 进行 的 同样 的 搜索 操作 。 完 全 一 样 的 工作 要 重复 地 进行 许多 次 ， 这 是 
多 么 大 的 浪费 ! 














上 述 例子 次 明 ， 在 我 们 的 剖析 程序 中 ， 存 在 着 许多 重复 的 、 不 必要 


的 工作 ， 程 序 往往 会 把 完全 相同 的 工作 ， 一 而 再 、 再 而 三 地 重复 许多 
次 。 问 题 的 症结 在 于 : 这 样 的 剖析 程序 记 不 住 它 在 前 面 已 经 做 过 什么 样 
的 操作 。 要 是 剖析 程序 能 记 住 它 前 面 已 经 做 过 的 操作 ， 那 就 可 以 避免 重 
复 。 在 上 面 的 例子 中 ， 如 果 我 们 的 剖析 程序 在 搜索 树 中 按 深 度 优先 、 从 
左 到 右 的 方式 进行 搜索 ， 那 么 ， 它 在 第 二 个 搜索 子 树 进行 搜索 之 初 ， 将 
可 对 于 名 词 词组 “the nurses” 成 功 地 进行 剖析 ， 不 过 ， 由 于 在 这 个 名 词 词 
组 的 后 面 还 有 一 个 及 物 动 词 report， 随 着 搜索 的 继续 进行 ， 最 后 导致 训 
析 在 第 二 个 搜索 子 树 中 的 失败 。 齐 析 失 败 了 ， 程 序 也 就 把 在 训 析 第 二 个 
搜索 子 树 过 程 中 所 得 出 过 的 信息 全 部 地 抛弃 了 ， 包 括 它 在 对 于 名 词 词 
组 “the nurses” 兽 经 作出 的 成 功 剖 析 的 那些 正确 的 信息 ， 也 一 股 脑 儿 被 抛 
和 工 了 。 这 样 ， 当 齐 析 在 第 三 个 搜索 子 树 中 进行 时 ， 遇 到 同样 的 名 词 词 
组 “the nurses”， 又 得 重 起 炉灶 ， 重 复 在 前 面 分 析 这 个 名 词 词组 时 所 进行 
过 的 一 切 工 作 。 























如 果 剂 析 程 序 把 在 成 功 地 分 析 名 词 词 组 “the nurses” 时 的 那些 成 分 及 
其 结构 记录 下 来 ， 例 如 ， 我 们 可 以 记录 下 这 样 一 个 完全 结构 : 


S 
"m i ET 
NP VP 
they TV NP 
Saw ii | 
the nurses 





图 6.2 ”完全 结构 





那么 ， 当 齐 析 在 第 三 个 搜索 子 树 及 第 四 个 搜索 子 树 中 进行 时 ， 只 需要 调 
用 关于 名 词 词组 “the nurses” 的 已 有 的 训 析 结果 即 可 。 这 样 ， 就 可 以 省 去 
许多 重复 的 工作 ， 提 高 剖析 程序 的 效率 。 在 剖析 其 他 的 搜索 子 树 时 ， 调 
用 名 词 词组 “the nurses” 的 剖析 结果 ， 在 另外 一 种 上 下 文 条 件 下 ， 剖 析 可 
能 成 功 ， 也 可 能 再 次 失败 ， 但 不 论 成 功 与 否 ， 已 经 记录 下 来 的 名 词 词 
组 “the nurses” 的 各 种 信息 ， 在 剖析 过 程 中 ， 都 免 去 了 重复 的 工作 ， 起 了 
正面 的 作用 。 因 此 ， 我 们 需要 齐 析 程序 能 够 保存 这 样 的 完全 结构 。 











由 于 我 们 所 编写 的 语法 不 完善 ， 在 目 然 语言 训 析 时 ， 有 时 会 遇 到 一 
些 形式 上 不 合格 的 输入 句子 。 例 如 ， 在 英语 中 ， 





The nurses book her travel 


这 个 输入 句子 ， 就 不 符合 本 章 开 始 时 我 们 提出 的 那个 短语 结构 语法 。 
为 在 这 个 语法 中 ，book 只 注 明 了 <cat>=N， 只 能 看 成 一 个 名 词 ， 如 果 把 
book 只 看 成 名 词 ， 那 么 ， 这 个 输入 句子 只 能 谢 析 为 一 个 树 的 序列 ， 而 不 
能 形成 一 个 完整 的 树 形 图 ， 这 是 一 种 不 完全 结构 。 如 图 6.3 所 示 。 


NP N NP 
Det N Det N 
sale | ls 


book her 
图 6.3 不 完全 结构 ( 树 的 序列 ) 


在 目 然 语 言 误 析 时 ， 或 者 由 于 拼写 的 错误 ， 或 者 由 于 词典 中 低 不 到 
有 关 的 单词 ， 或 者 由 于 其 他 的 非常 规 输入 ， 第 种 会 出 现 这 样 的 情况 ， 产 
生 不 完全 结构 。 


目前 ， 学 者 们 正在 讨论 自然 语言 计算 机 处 理 系统 的 鲁 棒 性 


(robustness) 问题 。 鲁 棒 性 就 是 从 失败 中 自动 恢复 的 能 力 ， 也 就 是 所 
谓 的 “ 软 失败 ”(soft-fail) 。 一 个 自然 语言 处 理 系 统 在 遇 到 各 种 非常 规 的 
输入 时 ， 能 够 调用 其 他 知识 或 备用 机 制 来 做 出 适当 反应 ， 给 出 部 分 剖析 
结果 ， 留 待 将 来 作 进一步 的 处 理 ， 都 是 鲁 棒 性 的 表现 。 在 一 个 具有 和 鲁 棒 
性 的 自然 语言 处 理 系统 中 ， 在 句法 分 析 时 保存 住 这 些 非常 规 的 输入 ， 而 
不 是 简单 地 宣布 剖析 失败 ， 等 到 语义 分 析 或 语 用 分 析 时 再 来 进一步 解决 
它 ， 因 此 ， 我 们 应 该 设法 使 得 剖析 程序 有 保持 这 种 非常 规 输入 的 能 

并 能 表示 不 完全 结构 。 


























另外 ， 由 于 自然 语言 中 具有 大 量 的 潜在 歧义 结构 ， 当 潜在 歧义 结构 
实例 化 为 现实 的 区 义 结构 的 时 候 ， 齐 析 时 就 会 得 出 两 种 不 同 的 结构 。 例 
如 ， 








They hear the report on travel 


这 个 英语 句子 ， 可 以 理解 为 "他们 听 关 于 旅行 的 报告 ”， 也 可 以 理解 
为 “他 们 在 旅行 中 听 报 告 ”， 其 结构 如 岁 6.4 所 未 : 


S 
| VP 上 VP 
m b zur. 
they TV NP they TV NP PP 
put S |. sx 
hear Det N PP hear Det N onthe travel 
Dos]. ug e I | 
the report on the travel the report 





图 6.4 歧义 结构 











因此 ， 剂 析 程 序 应 该 具有 保存 歧义 结构 的 功能 ， 应 该 可 以 表示 上 攻 义 
结构 。 


在 目 然 语 言 处理 中 ， 采 用 “ 民 构 子 串 表 ?” 来 解决 这 些 问 题 。 在 民 构 子 
串 表 中 ， 每 一 个 子 串 都 是 在 结构 上 合格 的 ， 因 而 也 都 是 民 构 的 ， 但 是 这 
些 良 构 子 串 形成 的 整个 结构 不 一 定 是 完全 的 ， 这 些 良 构 子 捉 甚至 不 能 结 
合 为 整个 的 结构 ， 它 们 只是 形成 一 个 表 Cable) ， 因 此 民 构 子 串 表 可 以 
表示 完全 结构 ， 也 可 以 表示 不 完全 结构 ， 还 可 以 表示 歧义 结构 。 这 样 一 
来 ， 民 构 子 串 表 束 能 够 把 训 析 过 程 中 那些 在 局 部 上 民 构 的 中 间 结 构 保 存 
来， 不 至 于 因为 它们 不 能 形成 完全 结构 而 轻易 地 把 它们 抛弃 ， 避 免 了 
剖析 过 程 中 的 浪费 。 











民 构 子 串 表 用 数字 0 和 n 分 别 表示 符号 串 的 首 和 尾 ， 而 在 这 个 符 写 串 
中 所 包含 的 词 ， 则 从 左 到 右 分 别 用 数字 1 到 n-1 来 表示 ， 这 样 ， 民 构 子 串 
表 便 能 告诉 我 们 ， 在 i 和 j 两 个 点 之 间 COxicjenO ， 存 在 着 一 些 什 么 样 的 
范畴 标记 。 民 构 子 串 表 就 是 一 个 有 疝 的 非 成 轿 图 ， 所 谓 “ 有 癌 ”， 是 指 它 
的 每 一 个 弧 都 有 一 定 的 方向 ， 所 谓 “ 非 成 圈 ”， 是 指 图 中 不 能 包含 环 路 。 
在 这 个 有 问 的 非 成 圈 图 中 ， 首 结 点 标 以 n，n 是 符号 串 中 的 词 数 ， 弧 上 的 
标记 是 句法 范畴 和 词 。 




















图 6.5，6.6，6.7 束 是 这 样 的 民 构 子 串 表 ， 它 们 可 以 分 别 表示 我 们 上 面 
所 提 到 的 那 三 种 情况 ， 表示 完全 结构 ， 表 示 不 完全 结构 ， 表 示 歧 义 结 
构 。 














图 6.5 ”表示 完全 结构 的 民 构 子 串 表 














9 
图 6.6 ”表示 不 完全 结构 的 良 构 子 串 表 


S 











图 6.7 表示 上 收 义 结构 的 民 构 子 


n 
ni 





Pete — 


PTE S iE 


“ 民 构 子 串 表 ?虽然 可 以 帮助 我 们 保存 在 剖析 时 的 茶 些 中 间 结 有 末 ， 免 
去 了 多 次 重复 地 做 虚 功 之 兰 ， 但 是 ， 当 前 面 训 析 失 败 时 ， 民 构 子 串 表 并 
不 能 帮助 我 们 记 住 前 面 所 作 过 的 假设 和 猜 调 ， 也 不 能 让 我 们 了 解 到 剖析 
的 目标 ， 也 就 是 说 ， 民 构 子 串 表 只 能 够 表示 结构 的 茶 些 事实 ， 但 并 不 能 
表示 关于 结构 的 假设 、 猜 测 和 目标 。 

















我 们 来 观察 下 面 的 图 6.8。 


S 需 要 有 VP 


?VP_>VNP 








图 6.8 目标 和 假设 的 表示 


在 这 个 图 中 ， 力 图 表示 出 神 析 过程 中 的 有 关 分 析 状 况 ， 主 要 包括 如 
下 几 项 : 


一 一 这 个 符号 串 由 序列 NP 和 VP 组 成 ; 


剖析 程序 正 试图 把 S 分 析 为 序列 NP VP， 并 证 实 这 样 的 假设 ; 





痢 析 程序 业已 证 实 从 起 始点 到 第 二 个 点 之 则 的 弧 上 的 NP 与 序 
列 NP VP 中 的 NP 是 等 同 的 ; 








剖析 程序 还 需要 证 实 序列 V NP 可 以 归结 为 VP。 


易于 看 出 ， 展 构 子 串 表 可 以 表示 出 其 中 的 一 部 分 分 析 状 况 ， 但 是 ， 
为 了 全 面 地 表示 分 析 状 况 ， 还 需要 进一步 指出 剖析 过 程 中 的 茶 些 假设 ， 
而 民 构 子 串 表 的 数据 结构 不 可 能 表示 出 这 样 的 假设 。 为 此 ， 我 们 有 必要 
对 数据 结构 作 两 点 修改 : 





一 一 在 有 癌 图 中 ， 不 严格 要 求 所 有 的 弧 都 是 不 成 圈 的 ， 容 许 从 某 个 
点 出 发 ， 中 间 不 经 过 其 他 的 点 ， 又 直接 重新 返回 这 个 点 的 圈 〈 空 弧 ) 出 
现 ， 但 是 ， 不 容许 从 某 个 点 出 发 ， 中 间 经 过 其 他 的 点 ， 才 返回 这 个 点 的 
圈 出 现 。 在 图 6.9 中 ， 容 许 出 现 图 6.9 (a)〉 中 的 圈 ， 不 容许 出 现 图 
6.9 (b) FA. 


(a) (b) 





Kl6.9 (a): 容许 出 现 的 圈 ，(b〉; 不 容许 出 现 的 圈 











一 一 狐 上 的 标记 不 仅 可 以 是 简单 的 范畴 ， 而 且 还 可 以 是 语法 规则 。 
WRS > NP VP 是 语法 中 的 一 个 规则， 那么 ， 下 面 几 个 加 了 圆 点 (dot) 


的 规则 都 可 以 用 作 弧 上 的 标记 : 


S 5 .NP VP 
9 5 NP.VP 
S 5 NP VP. 


ERUDITE Ee EA, CE Ae 
检验 过 的 当前 规则 所 涉及 的 假设 延伸 的 范围 。 这 种 加 园 点 的 规则 告诉 我 
们 ， 什 么 是 规则 中 检验 过 的 ， 什 么 是 规则 中 有 符 检 验 的 。 


规则 “S > .NP VP” 被 标记 在 从 某 一 点 出 发 义 回 到 该 点 的 弧 上 ， 这 个 
弧 恰 恰 形 成 一 个 自封 闭 的 圈 。 它 表示 假设 $ > NP VP 还 没有 被 检验 ， 也 
没有 被 证 实 。 


规则 “S > NP.VP”* 所 标记 的 弧 的 下 方 ， 应 该 可 以 履 盖 另 一 个 标记 为 
NP > <category> 的 弧 ， 它 说 明 假 设 的 第 一 部 分 〈 即 出 现 第 一 个 NP 的 部 
分 ) 已 被 确认 ， 而 假设 的 第 二 部 分 〈 即 VP) 还 有 竺 检验 和 证 实 。 


规则 “S > NP VP.” WHH, BRS — NP VP 已 经 经 过 检验 ， 并 且 已 经 
被 证 实 。 


经 过 上 述 修改 的 恨 构 子 串 表 可 以 描述 谢 析 过 程 中 所 出 现 的 各 种 假 
设 ， 比 一 般 的 民 构 子 串 表 具 有 更 强 的 功能 ， 我 们 把 经 过 这 样 修改 的 恨 构 
子 串 表 叫做 活性 线 图 (active chart) ， 简 称 线 图 (chart) 。 线 图 中 的 
点 ， 叫 做 顶点 〈vertexz) ， 线 图 中 的 踊 ， 叫 做 边 〈edge) ， 表 示 尚 未 被 
证 实 的 假设 的 边 ， 叫 做 活性 边 (active edge) ， 表 示 已 被 证 实 的 假设 的 
边 ， 叫 做 非 活性 边 〈inactive edge)〉， 例 如 ， 标 记 为 “C > <category>” H] 
边 就 是 非 活性 边 。 





显而易见 ， 几 是 可 被 民 构 子 串 表 表 示 的 信息 ， 全 都 可 以 在 线 图 上 表 
示 出 来 。 


图 6.10, 6.11, 6.12 中 的 线 图 ， 分 别 是 由 图 6.5, 6.6, 6.7 中 的 恨 构 子 串 表 
改进 而 成 的 ， 线 图 中 的 边 全 部 都 是 非 活性 边 。 


S —NP VP. 






VP 2TV NP. 


NP >Det N. 





图 6.10 表示 完全 结构 的 线 图 





NP >DetN 





图 6.11 表示 不 完全 结构 的 线 图 





S >NP VP 








VP >TV NP 


NP >NPPP 


VP >TV NP PP 


PP >Prep NP 





图 6.12 ”表示 卜 义 结构 的 线 图 











线 图 还 可 以 表示 民 构 子 串 表 不 能 表示 的 目标 和 假设 。 图 6.13 中 的 线 图 可 
表示 图 6.8 中 未 能 表示 出 来 的 目标 和 假设 等 。 


VP >.VNP 





S 2NP.VP 





图 6.13 ”表示 目标 和 假设 的 线 图 








图 6.13 的 线 图 中 有 两 个 活性 边 。 一 个 活性 边 上 的 标记 为 5 Š 
NP.VP， 它 表示 在 第 一 个 顶点 和 第 二 个 顶点 之 间 检 验 假 设 $ ~ NP VP 
时 ， 已 经 证 实 S > NP VP 中 的 第 一 部 分 NP， 但 还 未 证 实 第 二 部 分 VP。 
另 一 个 活性 边 是 VP > .V NP， 这 是 一 个 从 第 二 个 顶点 出 发 又 返回 到 第 
二 个 顶点 的 圈 ， 它 表示 对 于 假设 VP > V NP， 还 未 进行 检验 ， 也 未 得 到 








证 实 。 


我 们 可 以 把 线 图 表示 为 结构 的 集合 ， 集 合 中 的 每 一 个 结构 应 该 具有 
如 下 的 属性 : 


起 点 ，<START> = ... 某 个 整数 ... 
终点 : «FINISH» = ... 某 个 整数 ... 
标记 : <LABEL> = ... 某 个 范畴 ... 
己 证 实 部 分 : «FOUND? = ... 某 个 范畴 序列 ... 
待 证 实 部 分 : <TOFIND> = ... 某 个 范畴 序列 ... 





其 中 ，<LABEL> 是 加 圆 点 规则 的 左 部 LHS，<FOUND> 是 加 圆 点 规 
则 的 右 部 RHS 中 圆 点 左 侧 的 范畴 序列 ， 它 是 RHS 中 已 经 被 检验 和 证 实 的 
部 分 ，<TOFIND> 是 加 圆 点 规则 的 右 部 RHS 中 圆 点 右 侧 的 范畴 序列 ， 它 
是 RHS 中 尚未 被 检验 和 证 实 的 部 分 。 当 一 个 边 上 的 TOFIND 的 值 为 空 序 
列 时 ， 则 该 边 为 非 活性 边 。 





有 时 ， 我 们 可 以 用 五 元 组 来 记录 上 述 属性 。 
例如 ， 五 元 组 <0, 2, S > NP.VP> 表 示 如 下 的 活性 边 : 


«START» = 0 
«FINISH» = 2 
«LABEL» = S 
<FOUND> = <NP> 
<TOFIND> =<VP> 


五 元 组 <3, 5, NP > Det N.> 表 示 如 下 的 非 活性 边 : 


«START»? = 3 


«FINISH» = 5 
«LABEL»? = NP 
«FOUND? = «Det, N> 
<TOFIND> =< > 


FKE, A Alii UH Aca ic. BE TE HT 
过 程 中 ， 线 图 的 一 部 分 由 如 下 的 边 组 成 : 


{ «0, 2, S. NP.VP>, 
«2, 3, VP > TV.NP PP», 
«3, 5, NP > DetN.>, 


«5, 8, PP > PrepNP.> } 


这 些 边 可 以 图 示 为 图 6.14: 


S>NPVP VP 2TV.NPPP NP >DetN. PP Prep NP. 


图 6.14 ”部 分 线 图 示例 





为 了 清楚 起 见 ， 图 6.14 中 省 略 了 线 图 中 的 一 些 边 ， 只 标 出 了 我 们 所 
要 讨论 的 边 ， 其 中 ， 前 两 个 边 是 活性 边 ， 后 两 个 边 是 非 活 性 边 。 非 活性 
边 中 ， 第 一 个 表示 名 词 词组 ， 第 二 个 表示 介词 词组 ， 它 们 都 是 在 剖析 过 
程 中 已 经 被 检验 并 且 被 证 实 的 。 活 性 边 中 ， 第 一 个 表示 关于 句子 的 假 
设 : 句子 中 已 经 找到 了 名 词 词组 ， 正 要 查找 动词 词组 ， 第 二 个 表示 关于 
动词 词组 的 假设 : 动词 词组 中 已 经 找到 了 及 物 动词 ， 正 要 得 找 名 词 词组 
以 及 跟 在 这 个 名 词 词组 后 面 的 介词 词组 。 














我 们 来 研 客 第 一 个 活性 边 ， 如 末 在 顶点 2 我 们 能 找到 一 个 从 这 个 项 


点 开始 的 非 活 性 边 ， 而 且 这 个 非 活性 边 是 个 动词 词组 ， 那 么 ， 残 可 以 满 
足 假设 的 条 件 。 但 事实 上 我 们 没有 找到 这 样 的 非 活性 边 。 当 然 ， 我 们 也 
可 以 假设 存在 着 这 样 的 非 活 性 边 ， 但 是 ， 在 这 样 的 假设 尚未 得 到 证 实 之 
前 ， 我 们 不 能 正确 地 分 析 第 一 个 活性 边 。 


在 这 种 情况 下 ， 我 们 只 好 将 注意 力 转 到 第 二 个 活性 边 上 。 从 规则 
VP > TV.NP PP 可 知 ， 我 们 假设 存在 着 一 条 从 第 三 个 顶点 开始 的 非 活性 
边 ， 而 且 这 个 非 活 性 边 上 标记 中 的 <LABEL> 为 名 词 词组 ， 我 们 马上 就 
找到 了 这 样 的 非 活性 边 ， 其 标记 为 “NP > Det N.”， 这 说 明 ， 我 们 关于 
动词 词组 的 假设 至 少 是 部 分 地 得 到 了 证 实 。 为 此 ， 我 们 在 线 图 上 加 上 一 
个 新 的 活性 边 ， 其 标记 为 <2, 5, VP = TV NP.PP>， 这 是 关于 动词 词组 的 
进一步 假设 : 假设 存在 着 一 条 从 第 五 个 顶点 开始 的 非 活性 边 ， 这 个 非 活 
性 边 上 的 标记 中 的 <LABEL> 为 介词 词组 ， 我 们 也 找到 了 这 样 的 非 活 性 
边 ， 其 标记 为 “PP | Prep NP.”， 这 说 明 ， 我 们 关于 动词 词组 的 假设 得 到 
了 进一步 的 证 实 。 为 此 ， 我 们 在 线 图 上 再 加 上 一 个 新 的 非 活性 边 ， 其 标 
记 为 <2, 8, VP > NP PP.>， 这 样 一 来 ， 我 们 的 线 图 又 增加 了 两 条 边 ， 边 
的 集合 进一步 增加 为 : 








{ «0, 2, S- NP.VP>, 


«2, 3, VP = TV.NP PP», 


«2, 5, VP = TV NP.PP>, 
<2, 8, VP = TV NP PP.>, 
<3, 5, NP = DetN.>, 

«5, 8, PP > PrepNP.> } 


如 果 回 到 顶点 0， 我 们 可 以 看 到 ， 从 顶点 0 到 顶点 2， 存 在 着 一 条 活 
性 边 ， 其 标记 为 *“$ > NP.VP”， 从 顶点 2 到 顶点 8， 存 在 着 一 条 非 活性 
边 ， 其 标记 为 “VP > TV NP PP.”， 因 此 ， 我 们 又 可 再 加 上 一 条 新 的 非 活 


性 边 <0, 8, S > NP VP.>， 我 们 的 线 图 如 图 6.15 所 示 : 


S>NPVP VP>TVNPPP NP >DetN. PP >Prep NP. 


VP —TV NP.PP 


VP_>TV.NP PP 


S 2NP.VP 
图 6.15 ”增加 了 新 边 的 线 图 示例 





这 时 ， 标 记 为 “S > NP VP.” 的 非 活 性 边 横 跨 在 句子 的 起 点 和 终点 之 
间 ， 这 说 明 ， 所 剖析 的 符号 串 是 一 个 合格 的 句子 ， 剖 析 成 功 。 








虽然 还 可 能 存在 着 其 他 的 剂 析 结 果 ， 但 我 们 上 述 的 剖析 结果 至 少 是 
其 中 成 功 的 一 个 。 


从 上 面 使 用 线 图 的 训 析 过 程 可 以 看 出 ， 如 果 一 个 活性 边 遇 到 了 一 
非 活性 边 ， 而 且 ， 这 个 非 活 性 边 标 记 上 的 范畴 满足 活性 边 的 要 求 ， 那 
么 ， 束 可 以 在 线 图 中 加 上 一 条 新 的 边 ， 这 条 边 横 跨 在 活性 边 和 非 活 性 边 
上 上。 美国 计算 语言 学 家 蕊 丁 : 唤 依 把 这 条 规则 称 为 “ 线 图 剖析 的 基本 规 
Wj”? (fundamental rule) ， 可 以 稍微 严格 地 表述 如 下 : 





线 图 剂 析 基本 规则 : 





如 果 在 线 图 中 含有 活性 边 <i, j, A > W1.B W2> 和 非 活性 边 <j, k, B 
_-，w3.>， 其 中 ，A 和 B 是 范畴 ，W1，W2 和 W3 (可 能 为 空 ) 是 范畴 序列 
或 词 ， 那 么 ， 在 线 图 中 加 一 条 新 的 边 <i, k, A > W1 B.W2>。 





线 图 剖析 基本 规则 中 没有 明确 说 明 新 的 边 是 活性 的 还 是 非 活 性 的 ， 
因为 这 完全 取决 于 W2， 如 果 W2 不 为 空 ， 那 么 ， 新 的 边 就 是 活性 边 ， 如 
果 W2 为 空 ， 那 么 ， 新 的 边 就 是 非 活 性 边 。 在 上 述 的 剖析 过 程 中 ， 妆 活 
性 边 与 非 活性 边 相 遇 时 ， 我 们 曾经 三 次 都 加 了 新 的 边 ， 这 足以 说 明 ， 这 
个 基本 规则 在 线 图 剖析 中 是 非常 重要 的 。 





线 图 天 析 中 的 为 一 个 重要 问题 是 线 图 的 局 动 问题 。 





我 们 显然 不 能 把 上 述 的 基本 规则 用 于 不 包含 边 的 线 图 上 ， 为 了 使 用 
基本 规则 ， 在 线 图 中 人 至少 要 有 一 条 活性 边 和 一 条 非 活 性 边 。 在 具体 的 剖 
析 过 程 中 ， 为 了 启动 一 个 线 图 ， 我 们 可 以 通过 查 词典 的 办 法 ， 把 单词 在 
词典 中 的 有 关 范 上 畴 的 信息 直接 记录 到 线 图 的 边 上 ， 从 而 形成 非 活性 边 。 
例如 ， 当 分 析 句 子 “They see her report on the nurses” 时 ， 根 据 本 节 开 始 时 
所 述 的 那个 短语 结构 语法 ， 可 以 把 各 个 单词 所 属 词类 或 词组 的 信息 记录 
到 线 图 上 ， 从 而 局 动 线 图 。 





例如 ， 根 据 规则 they: <cat>=NP， 可 以 写 出 标记 *NP > they.” 记 在 
非 活性 边 上 ;， 根据 规则 see: <cat>=TV， 可 以 写 出 标记 “TV > see.” 记 在 
非 活性 边 上 ; 根据 规则 her: <cat>=Det 和 规则 her: <cat>=NP， 可 以 分 别 
写 出 标记 “Det > her.” 和 标记 *NP > her.” 分 别 记 在 两 条 非 活 性 边 上 ，... 
等 等 . 如 图 6.16 所 示 。 





NP_>they. TV_>see. Det >her.TV_>report. Prep >on. Det ^the. N nurses 





NP »her. N report. 


NP nurses. 
图 6.16 ZA Aah 





在 图 6.16 中 ， 有 时 在 相 邻 的 两 个 顶点 之 间 会 出 现 一 条 以 上 的 非 活性 
边 ， 这 是 由 于 某 些 词 的 兼 类 所 引起 的 。 


给 线 图 作出 了 非 活性 边 只 是 局 动 的 第 一 个 步骤 ， 在 这 种 情况 下 ， 剂 
析 还 不 能 开始 ， 我 们 还 需要 造 出 新 的 活性 边 ， 才 能 使 用 线 图 剂 析 的 基本 
规则 。 


下 面 ， 我 们 提出 一 个 简单 的 办 法 来 造 出 新 的 活性 边 : 每 当 我 们 在 线 
图 中 加 一 条 融 有 标记 C 的 非 活性 边 时 ， 就 从 同一 顶点 开始 ， 加 上 一 条 没 
有 标记 的 〈 空 的 ) 活性 边 ， 而 对 于 语法 中 以 成 分 C 作 为 它 的 最 左 子 结 点 
的 每 一 条 规则 ， 就 可 以 在 线 图 中 没有 标记 的 《〈 空 的 ) 活性 边 上 ， 加 上 反 
映 该 规则 的 标记 ， 并 且 ， 这 条 活性 边 从 同一 项 点 出 发 ， 在 同一 顶点 结 
束 ， 从 而 找 碍 什么 是 它 的 组 成 成 分 ， 这 样 ， 就 可 以 调用 语法 中 的 规则 来 
进行 目 底 和 同上 的 训 析 。 这 种 目 底 癌 上 调用 规则 的 策略 ， 可 归纳 如 下 。 








目 底 和 同上 规则 : 


如 果 我 们 在 线 图 中 加 一 条 形式 为 <i，j，C > W1.> 的 非 活性 边 ， 那 
么 ， 对 于 语法 中 每 一 条 形式 为 B > CW2 的 规则 ， 在 线 图 上 加 一 条 形式 
为 <i, j B .CW2> 的 活性 边 。 这 就 是 说 ， 如 果 在 顶点 i 与 之 间 有 非 活 性 
边 “C -，W1.”， 而 语法 中 有 规则 B -，CW2， 则 在 顶点 出发， 在 顶点 i 结 
束 ， 加 上 一 条 活性 边 “B - CW2.”， 如 图 6.17 所 示 。 


B ».CW2 


C >Wl. 


图 6.17 规则 的 调用 





例如 ， 在 图 6.16 的 顶点 0，1，2 之 间 ， 根 据 前 述 的 短语 结构 语法 ， 使 
用 上 述 的 自 捷 同上 规划， 可 作出 如 下 的 活性 边 : 


S SNP VP. VP >.TV NP PP 






TV. »see. 
NP they. te 


VP >.TV NP VP 
图 6.18 把 自 底 向 上 规则 用 于 局 动 后 的 线 图 








当 用 添加 许多 非 活 性 边 的 方法 来 局 动 线 图 时 ， 如 果 使 用 这 样 的 自 底 
加 上 规则 ， 就 可 以 在 线 图 上 添加 出 许多 的 活性 边 ， 这 样 一 来 ， 就 可 以 使 
用 基本 规则 开始 进行 句子 的 剖析 了 。 可 见 ， 自 底 向 上 规则 和 基本 规则 使 
得 我 们 可 以 发 现 各 种 可 能 的 分 析 结 采 。 


目 顶 癌 下 剂 析 调 用 规则 的 策略 如 下 : 


(1) 在 启动 时 ， 对 于 语法 中 一 个 形式 为 A > W 的 规则 ， 如 果 其 中 
的 A 是 一 个 可 以 横 跨 整个 线 图 的 范畴 (表示 人 句子 的 S 就 是 这 样 的 范 
EE) ， 那 么 ， 就 在 线 图 上 加 活性 边 <0, 0, A > .W>， 从 而 启动 句子 S 的 自 
Tig Fir. 


(2) 如 果 我 们 在 线 图 上 加 了 活性 边 <i, j C WLB W2», WMA, 
对 于 语法 中 的 每 一 个 形式 为 B >- W 的 规则 ， 在 线 图 上 加 活性 边 <i,i, B 
.W>， 从 而 启动 成 分 B 的 处 理 。 


使 用 第 一 条 规则 可 以 使 我 们 在 线 图 中 的 第 一 个 项 点 上 加 上 一 条 以 S 
为 标记 元 部 的 活性 边 ， 从 而 使 剖析 程序 自 顶 辐 下 地 开始 工作 。 


这 就 是 说 ， 如 果 在 语法 中 有 以 S 为 左 部 的 规则 CS-AO , AA, wt 
可 以 在 线 图 中 的 第 一 个 顶点 上 ， 加 上 一 条 活性 边 <0, 0, S = .W>。 


例如 ， 在 图 6.16 的 顶点 0，1，2 之 间 ， 根 据 前 述 的 短语 结构 语法 ， 可 
以 做 出 如 下 的 活性 边 : 


S_>NP VP. 






NP_>they. TV_>see. 








图 6.19 把 自 顶 向 下 规则 《1) 用 于 局 动 后 的 线 图 











由 于 语法 中 存在 以 S 为 左 部 的 规则 $ > NP VP， 而 且 ， 线 图 中 0， 1 
两 点 之 间 的 非 活性 边 *NP > they.” 上 标记 的 左 侧 NP， 恰 好 与 规则 S > 
NP VP 中 的 NP 相 同 ， 所 以 ， 就 在 线 图 上 加 活性 边 <0, 0, S > .NP VP», 
这 样 ， 束 可 以 从 SS 开始， 进行 自 顶 回 下 的 剖析 。 


例如 ， 在 图 6.16 的 顶点 0， 1，2 之 间 ， 在 加 了 第 一 条 活性 边 “S 5 .NP 
VP” 之 后 (这 时 ， 活 性 边 <i, j C > W1.B W2> 的 i=0, j=0, C=S, W1=0, 
B-NP, W2=VP)〉， 句 子 的 目 顶 回 下 齐 析 就 启动 了 。 这 时 ， 由 于 语法 中 
还 有 以 NP 为 左 部 的 规则 NP — Det N 和 NP ~ Det N PP， 所 以 ， 还 可 以 在 
线 图 上 加 活性 边 <0, 0, NP = .Det N> 和 <0, 0, NP > .Det N PP». (这 时 ， 
活性 边 <i, i, B > .W1»HJi-0, j=0, B=NP, W=Det N 或 Det N PP) ， 从 而 启 
动 NP 的 剖析 。 如 图 6.20 所 示 。 








S—.NP VP 


TV—see. 





NP—.Det N 


NP 一 .DetN PP 
图 6.20 把 自 顶 向 下 规则 《〈2) 用 于 启动 后 的 线 图 














在 用 线 图 来 剖析 句子 的 过 程 中 ， 如 果 添 加 的 边 太 多 ， 将 会 降低 剖析 
的 效率 ， 因 为 边 越 多 ， 剂 析 的 工作 量 越 大 ， 剂 析 的 效率 也 就 越 低 。 线 疼 
中 没有 用 的 非 活性 边 和 活性 边 只 会 使 测 析 程 序 苑 而 无 功 。 


当 在 线 图 中 加 了 一 条 非 活 性 边 时 ， 为 了 使 用 基本 规则 ， 融 要 去 找 碍 
一 条 活性 边 ， 并 要 求 该 活性 边 中 含有 非 活性 边 起 点 上 的 有 关 范 畸 : 当 在 
线 图 中 加 了 一 条 活性 边 时 ， 为 了 使 用 基本 规则 ， 就 要 去 找 碍 一 条 非 活性 
边 ， 并 要 求 这 条 非 活性 边 中 的 第 一 个 范畴 是 活性 边 所 要 求 的 ， 当 在 线 图 
中 加 了 一 条 非 活性 边 时 ， 为 了 应 用 目 砌 和 网 上 规则 ， 就 要 在 所 有 的 语法 规 
则 中 找 碍 规则 右 部 的 第 一 个 范畴 ， 并 要 求 该 范畴 与 边 上 的 范畴 相同 ， 当 
在 线 图 中 加 了 一 条 非 活性 边 时 ， 为 了 应 用 上 自 项 同 下 规则 ， 束 要 在 所 有 的 
语法 规则 中 进行 找 奋 ， 看 一 看 规则 的 左 部 是 不 是 边 所 要 求 的 第 一 个 范 
畴 ;如 此 等 等 。 每 当 找 得 这 些 有 特殊 要 求 的 边 的 时 候 ， 程 序 要 对 线 图 中 
所 有 的 边 进行 搜索 。 因 此 ， 为 了 提高 剖析 的 工作 效率 ， 如 何 合理 而 巧妙 
地 设计 线 图 ， 使 它 的 边 足 够 我 们 使 用 ， 而 又 不 至 于 泛滥 成 灾 ， 真 正 做 到 
少 而 精 ， 是 线 图 分 析 时 应 该 重视 的 一 个 极为 重要 的 问题 。 


£r. Me dh 
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第 七 章 ”复杂 特征 与 合 一 运算 











当代 计算 语言 学 发 展 的 重要 特征 之 一 ， 是 在 各 种 自然 语言 处 理 系统 
中 ， 普 过 地 、 深 入 地 使 用 复 杀 特征 与 合 一 运算 。 本 章 详 细 讨 论 复杂 特征 
与 合 一 运算 的 基本 原理 ， 并 介绍 我 国学 者 在 这 方面 的 研究 情况 。 











第 一 让 单一 特征 与 复 森 特征 


在 短语 结构 语法 中 描述 一 个 语言 成 分 〈“ 词 、 词 组 ) 时 ， 是 使 用 单一 
特征 来 进行 的 ， 在 对 应 于 短语 结构 语法 的 树 形 图 中 ， 每 一 个 结 皮 只 有 一 
个 特征 作为 标记 与 之 对 应 。 使 用 单一 特征 时 ， 语 言 成 分 的 描述 比较 简 
单 ， 但 规则 的 描述 就 比较 复 杀 ， 而 且 规则 的 数量 也 比较 多 。 





例如 ， 我 们 使 用 单一 特征 ， 提 出 如 下 的 短语 结构 语法 来 描述 法 语 
(French) 的 一 个 片断 。 


规则 : 


1. S 2 NPa VPa 
2. S = NPb VPb 
3. S + NPc VPc 
4. S = NPd VPd 
5. S 2 NPe VPe 


其 中 ， 构 成 句子 $ 的 NP 与 VP 之 间 有 着 对 应 关系 ， 它 们 在 性 、 数 、 人 
称 等 方面 要 保持 一 致 Cagreement) 。 


单词 : 


je: <cat> = NPa 
tu: <cat> = NPb 
elle: «cat» = NPa 


nous: «cat» = NPc 


vous: <cat> = NPd 
ils: <cat> = NPe 
tombe: «cat» = VPa 
tombes: «cat» - VPb 
tombons: «cat» = VPc 
tombez: «cat» = VPd 


tombent: «cat» = VPe 


其 中 ，je (我 ) tu (你 ) elle Gh) , nous (FR) , vous (你 
AD -is BRD 等 人 称 代 词 要求 的 动词 形式 不 完全 相同 。 


例如 ， 动 词 tomber( 跌 倒 〉 与 je, elle 连 用 时 其 形式 为 tombe: 


je tombe (我 跌倒 ) 
elle tombe (她 跌倒 ) 


因此 ， 在 语法 中 ， 我 们 把 je 和 elle 的 范畴 定 为 NPa: «cat» = NPa， 而 
动词 tombe 的 范畴 也 相应 地 定 为 VPa: «cat» = VPa. 


动词 tomber 与 tu 连用 时 ， 其 形式 为 tombes: 
tu tombes (你 跌倒 ) 


因此 ， 在 语法 中 ， 我 们 把 tu 的 范畴 定 为 NPb: <cat> = NPb， 而 动词 
tombes 的 范畴 也 相应 地 定 为 VPb: «cat» = VPb. 


动词 tomber 与 nous 连 用 时 ， 其 形式 为 tombons: 


nous tombons (我 们 跌倒 ) 


因此 ， 在 语法 中 ， 我 们 把 nous 的 范畴 定 为 NPc: <cat> = NPc， 而 动 
词 tombons 的 范畴 也 相应 地 定 为 VPc: «cat» = VPc. 


动词 tomber 与 Vous 连 用 时 ， 其 形式 为 tombez: 
vous tombez (你 们 跌倒 ) 


因此 ， 在 语法 中 ， 我 们 把 vous 的 范畴 定 为 NPd: «cat» = NPd， 而 动 
词 tombez 的 范畴 也 相应 地 定 为 VPd:，<cat> = VPd. 


动词 tomber 与 jls 连 用时， 其 形式 为 tombent: 
ils tombent (他 们 跌倒 ) 


因此 ， 在 语法 中 ， 我 们 把 ils 的 范畴 定 为 NPe: «cat? = NPe， 而 动词 
tombent 的 范畴 也 相应 地 定 为 VPe: «cat» = VPe. 


这 样 一 来 ， 语 法 规则 也 就 相应 地 有 五 条 : 


S 5 NPa VPa 
S 5 NPb VPb 
S 5 NPc VPc 
S > NPd VPd 
S 5 NPe VPe 


然而 ， 从 语言 现象 的 实质 上 来 说 ， 这 五 条 规则 涉及 的 都 是 同样 的 语 
法 结构 ， 用 五 条 规则 来 描述 同样 的 语法 结构 ， 真 是 极 大 的 浪费 ! 





如 果 我 们 还 要 进一步 描述 更 多 的 法 语 语法 现象 ， 如 未 完成 过 去 时 


je tombais 〈 我 跌倒 了 ) 


和 


elle tombait 〈 她 跌倒 了 ) 





这 时 ，je 和 elle 的 相应 动词 形式 变 得 不 同 了 ， 我 们 势必 又 要 增加 新 的 规 
则 。 


如 果 我 们 再 进一步 描述 复合 过 去 时 
elle est tombée (她 跌倒 过 了 ) ， 


由 于 elle 是 阴性 ，tomber 的 过 去 时 也 要 用 阴性 形式 tombée， 而 且 tombée 的 
前 面 还 要 加 上 助动词 itre 的 第 三 人 称 单数 形式 est， 这 样 ， 我 们 的 语法 规 
则 就 要 变 得 更 加 复杂 了 。 可 见 ， 用 单一 特征 的 办 法 来 描述 语言 现象 会 使 
语法 规则 变 得 非常 之 复杂 。 





为 了 避免 这 种 过 于 复杂 的 规则 ， 我 们 提出 如 下 的 语法 来 描写 同样 的 
语法 现象 。 


规则 : 


So NP VP 
<NPper> = <VPper> 


<NPnum > = <VPnum > 


其 中 ，per 表 示人 称 ，num 表 示 数 。<NPper> = <VPper> 表 示 NP 的 人 
称 与 VP 的 人 称 一 致 ，<NPnum> = <VPnum> 表 示 NP 的 数 与 VP 的 数 一 
致 。 


单词 : 


je: «cat» - NP 


«num» - sing 


其 中 ，1 表 示 第 一 人 称 ，sing 表 示 单 数 (singular) 。 


tu: «cat» - NP 
«per» - 2 
«num» - sing 
elle: «cat» - NP 
«per» - 3 
«num» - sing 
nous: «cat» - NP 
«per» = 1 


«num» - plur 


其 中 ，2 表 示 第 二 人 称 ，3 表 示 第 三 人 称 ，plur 表 示 复 数 CpluraD 。 


vous: «cat» = NP 
«per» - 2 


«num» - plur 


ils: «cat» - NP 
«per» - 3 
«num» - plur 
tombe: «cat» - VP 
«per» = 1 
«num» - sing 


tombe: «cat» - VP 


<per> = 3 


«num» = sing 


注意 : tombe 的 <per> 可 以 是 1， 又 可 以 是 3。 
tombes: «cat» = VP 
«per» - 2 
«num» = sing 
tombons: «cat» - VP 


«per» = 1 
«num» = plur 
tombez: «cat» - 
«per» - 2 
«num» = plur 
tombent: «cat» - VP 
«per» - 3 


«num» - plur 





这 个 语法 与 前 面 的 那个 用 单一 特征 描述 的 语法 的 功能 是 一 样 的 ， 但 
是 ， 它 只 用 了 一 条 规则 ， 比 前 面 那个 语法 的 规则 简明 得 多 。 不 过 ， 这 个 
语法 对 单词 的 描述 却 比 前 面 的 那个 语法 复杂 ， 单 词 的 描述 不 是 用 单一 的 
特征 ， 而 是 用 复杂 特征 (complex features) 。 可 见 ， 如 果 采 用 复杂 特征 
来 描述 单词 ， 可 以 大 大 地 人 简化 语法 的 规则 。 





我 们 把 一 个 特征 看 成 是 由 两 部 分 组 成 的 : 一 部 分 叫做 属性 





(attribute) ， 一 部 分 叫做 值 Cvalue) ， 一 个 特征 就 是 由 属性 与 其 值 构 
成 的 “属性 一 值 ? 偶 对 ， 单 一 特征 只 包含 一 个 这 样 的 “属性 一 值 ” 倡 对， 复 
杂 特 征 则 包含 若干 个 这 样 的 “属性 一 值 ? 偶 对 。 因 此 ， 复 杂 特 征 就 可 以 表 


示 为 特征 矩阵 (feature matrix) 。 


例如 ， 法 语 的 je R) 这 个 词 的 复杂 特征 可 以 用 如 下 的 特征 矩阵 来 


表示 : 
cat NP 
per l 


num Ssıng 
我 们 还 可 以 用 图 〈graph) 来 表示 复杂 特征 。 例 如 ， 法 语 中 je 的 复杂 
特征 可 用 图 7.1 中 的 有 回 图 线 方法 来 表示 : 





cat per num 


NP l plur 


图 7.1 用 有 向 图 线 来 表示 复杂 特征 





这 样 的 图 叫做 “循环 有 疝 图 ”(Directed Acyclic Graph， 简写 为 
DAG) 。 图 7.1 中 的 图 线 是 有 疝 的 ， 因 为 其 中 的 每 一 条 图 线 都 有 方 问 
“用 箭头 标 出 ) ;图 7.1 中 的 图 又 是 非 循 环 的 ， 因 为 治 着 和 荫 头 所 指 的 方 
问 ， 不 允许 从 一 个 结 点 出 发 然后 又 返回 到 同一 个 结 点 的 图 线 。 在 非 循 环 
有 问 图 中 ， 图 线 上 的 标记 是 属性 ， 如 cat，per，num 等 ， 末 端 结 点 上 的 标 





记 是 原子 值 ， 如 NP，1, plur, sing 等 。 为 了 叙述 的 方便 ， 我 们 假定 这 些 原 
子 值 不 具有 内 部 结构 。 不 过 ， 从 理论 上 说 来 ， 范 畴 中 的 特征 本 里 又 可 以 
是 其 他 的 范畴 ， 因 而 特征 又 可 以 取 其 他 的 范畴 为 它 的 值 。 这 样 的 特征 ， 
叫做 “范畴 值 特征 ”(category-valued feature) 。 例 如 ， 我 们 可 以 使 用 
arg0〈 动 词 的 逻辑 论 元 ，argument 0) 这 样 的 范畴 值 特征 ， 它 本 身 又 可 
以 具有 NP、PP 等 词组 类 型 范畴 以 及 人 称 (per) 、 数 (num) 、 人 性 
(gender) ~ f& (case) 等 范畴 。 


cat: NP 

per: 1 C 第 一 人 称 ) 

num: sing ( 单数 ) 
arg gender: mas ( 阳性 ) 

case: nom ( 主格 ) 


其 中 ，mas 是 masculine〈 阳 性 ) 的 简写 ，nom 是 nominative 〈 主 格 ) 的 简 


E? 


与 。 








我 们 可 以 用 范畴 值 特征 arg0 来 处 理 法 语 中 单词 的 一 致 关 系 问 题 。 
例如 ， 我 们 可 以 提出 如 下 的 语法 : 
规则 : 


S = X VP 


«VP argo» = X 


在 这 个 规则 中 ，X 表 示人 句子 5 的 主语 ， 


这 个 主语 X 与 VP 的 arg0 特 征 的 


E (人称 、 数 等 ) 应 该 保持 一 致 ， 即 <VP arg0) = X. 


单词 : 代词 的 描述 与 前 面 的 语法 一 样 。 


je: «cat» = 
«per»? 二 
«num» - 

tu: «cat» = 
«per»? 二 
«num» - 
elle: «cat» 
«per»? 

«num» 

nous: «cat» 
«per»? 

«num» 

vous: «cat» 
«per»? 


«num» 


- plur 


ils: «cat» - NP 


«per» - 


«num» = 


plur 


这 时 ， 动 词 的 描述 可 以 用 范畴 值 特征 arg0 的 值 来 表示 arg0 与 VP 之 间 


在 人 称 和 数 方面 的 一 致 关系 。 


tombe: 


<Cat> = VP 
<arg9 cat» 
<arg0 per» 


«argo num» 


tombes: 


tombe: 


«cat» - VP 


«argo cat» 
«argO per» 


«argo num» 


«cat» - VP 
«argO cat» 
«arg0 per» 


«argo num» 


tombons: 


tombez: 


«cat» - VP 
«argO cat» 
«argo per» 


«argo num» 


«cat» - VP 


«argo cat» 


«argO per» 


«argo nuim> 


tombent: 


«cat» - VP 


«argO cat» 


NP 


«argo per» = 3 


«argo num» = plur 


我 们 可 以 用 非 循环 有 向 图 线 DAG 来 表示 这 个 语法 中 动词 的 复杂 特 
征 .例如 ， 动 词 tombons 的 复杂 特征 可 用 如 下 的 非 循 环 有 问 图 线 来 表示 : 


在 图 7.2 中 ， 特 征 arg0 的 值 是 cat， per, num 等 ， 这 些 值 本 身 也 是 范 
畴 。 如 前 所 述 ， 这 样 的 特征 叫 范 畴 值 特征 。 特 征 cat，per，num 的 值 分 别 
为 NP, 1，plur， 这 些 值 都 是 原子 ， 这 样 的 特征 ， 叫 “原子 值 特征 ”Catom- 
valued feature) 。 显 而 易 见 ， 当 且 仪 当 一 个 特征 不 是 原子 值 特征 时 ， 它 
就 是 范畴 值 特 征 。 


O 
cat / NV 
O O 
VP 
cat per num 








图 7.2 ”表示 动词 ttmbons 复 杂 特 征 的 非 循环 有 向 图 线 


<arg0 num» = plur 这 样 的 记 法 同时 也 指出 了 在 非 循 环 有 问 图 线 DAG 
中 的 一 条 路 径 <arg0 num>， 而 这 条 路 径 终 极 结 点 上 的 标记 为 plur。 





在 非 循环 有 问 图 线 中 ， 范 畴 之 间 往 往 存 在 着 相互 继承 关系 。 例 如 ， 
动词 词组 可 以 继承 动词 的 时 态 特 征 。 如 果 动 词 词组 为 母 范 畴 mother 
category) ， 动 词 为 子 范畴 (daughter category) ， 由 于 母 范 畴 继承 了 子 
范畴 中 的 特征 ， 所 以 ， 子 范畴 承 可 以 叫做 母 范 畴 的 “中 心 词 ”(Chead) ， 
动词 束 是 动词 词组 的 中 心 词 ， 动 词 词组 继承 了 其 中 心 词 的 时 态 特 征 。 











根据 中 心 词 的 概念 ， 我 们 可 以 把 动词 词组 VP 的 规则 写 为 如 下 形 
式 : 


规则 : 


VP > V NP PP 


«V head» - «VP head» 


这 个 规则 要 求 动词 V 的 head 特 征 的 值 与 其 母 结 点 VP 的 head 的 值 相 
等 。 如 果 在 一 条 规则 中 ，V 中 的 head 所 包含 的 属性 一 值 偶 对 与 VP 中 的 
head 所 包含 的 属性 一 值 偶 对 不 一 致 ， 那 么 ， 我 们 就 不 能 使 用 这 条 规则 。 
显而易见 ， 在 这 种 情况 下 ，head 的 值 不 能 为 原子 ， 它 本 身 又 是 一 个 非 循 
坏 有 问 图 线 。 


前 面 讲 过 的 非 循环 有 问 图 线 都 具有 树 形 图 的 形式 。 但 是 ， 非 循环 有 
向 图 线 除 了 树 形 图 这 种 形式 之 外 ， 还 可 以 有 其 他 的 形式 。 我 们 可 以 充分 
地 利用 非 循 环 有 辐 图 的 灵活 性 ， 更 加 方便 地 表示 复杂 特征 的 结构 。 





作为 例子 ， 我 们 来 研究 下 面 的 VP 规则 。 


规则 : 


VP > V NP PP 
«V head» - «VP head» 


«VP verb» - «V» 


根据 这 个 规则 ， 范 畴 VP 可 以 表示 为 如 下 两 个 非 循环 有 向 图 线 〈 图 
7.3) : 


O O 
head verb head verb 
O O O ”一 O 
head 
head 
O 











图 7.3 ”范畴 VP 的 两 种 不 同 表示 方法 


在 图 7.3 Ca) 和 (Cb) 中 ， 特 征 head 的 重复 值 被 省 略 了 ， 被 省 略 的 部 
分 用 “...” 表 示 ， 由 于 head 的 值 又 可 以 是 一 个 非 循 环 有 问 图 线 ， 
此 ,“...” 可 以 看 成 是 一 个 被 省 略 了 的 子 结构 〈substructure) ， 在 图 
7.3 (a) 中 ， 这 个 子 结构 重复 出 现 两 次 ， 而 在 图 7.3 (b) 中 ， 这 个 子 结 


构 只 出 现 一 次 ， 而 且 ， 它 为 两 个 head 所 共享 ， 图 7.3 (bo 不 是 一 个 树 形 
图 ， 但 它 仍 然 是 一 个 非 循环 有 向 图 线 ， 因 为 其 中 不 存在 从 一 个 结 点 出 发 
义 回 到 同一 结 扣 的 循环 边 。 


被 省 略 的 子 结构 的 内 容 取 决 于 规则 中 “= 的 具体 含义 。 例 如 ， 从 


«VP head» = «VP verb head» 


和 
<VP verb head num> = Sing 
我 们 可 以 得 到 


<VP head num> = Sing 


这 意味 着 ，VP 继 承 了 verb 的 全 部 head 特 征 。 这 就 是 规则 中 “=” 的 具 


图 7.3 Ca) 中 的 非 循环 有 回 图 线 可 以 这 样 来 解释 : 由 于 存在 着 两 个 
head 子 结构 ， 因 此 ， 我 们 可 以 在 图 中 的 head 一 侧 增加 一 些 别 的 信息 ， 而 
不 触动 图 中 的 head 一 侧 。 然 而 ， 图 7.3 Cb) 中 的 非 循环 有 向 图 线 由 于 出 
现 了 共享 一 个 子 结构 的 情况 ， 因 此 , “=” 只 能 解释 为 共 孚 的 这 个 子 结构 
征 同样 一 个 子 结构 ，head 的 全 部 特征 都 是 完全 一 样 的， 而 不 能 解释 为 只 
征 head 全 部 特征 中 具有 茶 些 相同 的 值 ， 因 此 ， 我 们 不 可 能 只 给 一 侧 增加 
一 些 信息 ， 而 不 触动 妨 一 侧 ，head 侧 和 verb ”head 侧 的 信息 应 该 完全 相 
同 。 这 种 共 至 的 表示 方法 可 以 使 数据 结构 更 加 短小 精 悍 ， 它 只 需要 保持 
一 个 共享 的 子 结构 。 所 以 ， 我 们 应 该 把 “=” 解 释 为 两 个 范畴 共享 ， 而 不 
只 是 把 “=” 解 释 为 只 是 具有 同样 的 值 。 











在 共享 的 非 循 环 有 向 图 线 中 ， 我 们 允许 终极 结 点 是 不 带 标记 的 。 例 
如 ， 表 示 规 则 


< 特征 1> = < 特征 2> 


的 非 循 环 有 回 图 线 可 以 允许 不 带 标记 的 结 点 。 如 图 7.4 所 示 。 


特征 1 特征 2 





图 7.4” 结 点 不 带 标 记 的 非 循 环 有 向 图 线 








不 过 ， 如 果 我 们 一 旦 允许 出 现 不 带 标 记 的 终极 结 点 ， 束 可 能 使 得 同 
样 的 信息 可 以 用 几 个 不 同 的 图 来 表示 。 因 为 我 们 总 是 可 以 在 不 增加 信息 
的 条 件 下 ， 把 许多 不 带 标 记 的 结 点 加 到 一 个 非 循环 有 问 图 线 上 ， 而 这 些 
不 带 标 记 的 结 扣 或 者 有 古 无 用 的 或 者 是 姿 误 的 。 


因此 ， 在 非 循 环 有 问 图 线 中 ， 我 们 可 以 不 考虑 那些 不 带 标 记 的 终极 
结 点 ， 因 为 这 样 的 终极 结 反 不 能 给 我 们 提供 任何 有 用 的 信息 。 从 这 个 意 
义 上 说 ， 图 线 7.5 (a) 与 (b)》 中 的 非 循 坏 有 向 图 线 是 完全 等 价 的 : 











11 11 
14 14 
O Oa O O a 
12 
O 
13 


图 7.5 ”两 个 完全 等 价 的 非 循 环 有 向 图 线 








图 7.5 Ca) 中 边 14 的 终极 结 点 上 有 标记 a， 而 从 边 12 延 伸 到 边 13 的 终 
极 结 点 上 没有 标记 ， 因 此 ， 边 12 和 边 13 可 以 看 成 是 多 余 的 ， 这 样 ， 图 
7.5 Ca) 中 的 非 循环 有 癌 图 线 就 完全 等 价 于 图 7.5 œ) WIEME m B 
线 了 。 





在 剖析 过 程 中 ， 要 对 语言 成 分 的 复杂 特征 进行 匹配， 匹配 时 要 涉及 
到 蕴涵 (subsumption)〉、 合 一 (unification) ~ 7244 (generalization) 等 





下 面 我 们 来 介绍 这 些 概念 。 


2k (subsumption ) 


YOR A ZH To BB AM 4: 


一 A 中 的 每 一 个 原子 值 特征 都 处 于 B 中 





一 对 于 A 中 共享 的 两 个 特征 值 ， 在 B 中 相应 的 特征 值 也 共享 ; 





一 对 于 A 中 的 每 一 个 范畴 值 特征 ， 在 B 中 相应 的 特征 都 有 一 个 值 ， 
而 且 人 A 中 特征 的 值 强 涵 于 B 中 特征 的 值 之 中 。 


如 果 A 强 泣 于 B， 我 们 就 说 B 是 A 的 扩充 Cextension) ， 或 者 说 “B 扩 
充 了 A”。 


如 果 范 畴 A 包 合 的 信息 少 于 范畴 B 包 含 的 信息 ， 那 么 ， 就 说 范畴 A 真 
包含 于 范畴 B， 这 时 ，A 中 的 每 一 个 信息 必定 在 B 中 出 现 ， 反 之 不 然 。 





我 们 来 研究 图 7.6 中 的 范畴 。 
) 


| 六 太太 


:2 x 
gr. 6 dnb: 例 


oc 
— 
c 
— 


O 
O 


根据 纺 涵 的 定义 ， 我 们 可 以 看 出 ， 范 畴 (a) WAT (b) ， 也 


蕴涵 于 范畴 (c) ; 范畴 (b) 与 范畴 Cc RIL AAS; 但 范畴 (b) 
和 范畴 Cc) 都 蕴涵 于 范畴 Cd) 。 


<— (unification) 


两 个 范畴 的 合 一 是 扩充 这 两 个 范畴 而 形成 的 最 小 范畴 ， 如 果 这 样 的 
范畴 存在 ， 就 可 以 合 一 ， 人 个 则 就 不 能 合 一 。 


在 图 7.6 中 ， 范 畴 (d) 是 范畴 Cb) 和 范畴 CO 的 合 一 ， 它 是 范畴 
(b) MWE Co) 扩充 而 成 的 最 小 范畴 ; 范畴 Cd) 还 可 以 看 成 是 范畴 
(a) . Wome CbO 和 范畴 〈c) 的 合 一 ， 它 是 范畴 Ca) . YOM Cb) 和 
WOME Co) 扩充 而 形成 的 最 小 范畴 。 








范畴 的 一 种 最 重要 的 运算 ， -运算 与 集合 论 中 的 并 运算 很 
ig. ) 只 是 合 运算 之 前 要 对 特征 的 相 容 性 进行 检验 ， 相 容 的 特征 才 可 
以 进行 全 一， 彼此 冲突 的 特征 就 不 能 合 一 。 这 是 合 一 运算 与 并 运算 的 不 
同 之 处 。 例 如 ， 我 们 有 图 7.7 中 的 范畴 。 








H 
REY 

H 
KE 


cat per \case 


NP 2 nom 


图 7.7 范畴 又 一 示例 


图 7.7 中 的 这 个 范畴 与 图 7.6 中 的 范畴 Cb) 不 能 合 一 ， 因 为 这 个 范畴 
中 的 per 的 值 为 2， 而 图 7.6 的 范畴 Cb) 中 的 per 的 值 为 1， 这 两 个 特征 值 
相互 冲突 。 


i715 (generalization) “ 





PADS T8. IZ 1578s Zi 8 3-306 A) Ye KL o 


可 以 看 出 ， 图 7.6 中 的 范畴 (a) 是 范畴 (b) 和 范畴 Co) 的 泛 化 ， 
它 是 续 涵 于 范畴 Cb) 与 范畴 (c) 中 的 最 大 范畴 。 同 理 ， 我 们 也 可 以 把 
图 7.6 中 的 范畴 Ca) 看 成 是 范畴 Cb) 、 范 畴 〈c) . ERE Cd) 以 及 图 
7.7 中 的 范畴 的 泛 化 。 





合 一 运算 是 复杂 特征 最 重要 的 运算 。 下 面 ， 我 们 来 说 明 ， 如 何 对 两 


个 范畴 进行 合 一 运算 。 如 果 这 两 个 范畴 是 用 非 循 环 有 问 图 线 来 表示 的 ， 
那么 ， 合 一 运算 就 要 把 这 两 个 用 非 循环 有 辐 图 线 表 示 的 范畴 中 的 信息 结 
合 在 一 起 ， 造 出 一 个 新 的 非 循环 有 问 图 来 表示 合 一 运算 的 结 末 。 这 时 ， 
我 们 可 以 从 表示 原 范 畴 的 两 个 非 循环 有 向 图 线 的 初始 结 点 出 及 ， 顺 着 图 
中 边 的 稍 头 所 指 的 方向 ， 把 这 两 个 非 循 坏 有 疝 图 线 走 一 壳 ， 同 时 ， 葡 把 
有 关 的 信息 复制 在 新 的 非 循 环 有 问 图 线 上 。 

















为 了 形象 地 解释 合 一 的 过 程 ， 我 们 可 以 把 一 个 手指 头 指 在 第 一 个 非 
人 循环 有 问 图 线 的 结 把 上， 把 为 一 个 手指 尖 指 在 第 二 个 非 循 环 有 向 图 线 的 
结 点 上 ， 而 把 大 拇指 指 在 相应 于 这 两 个 图 的 新 的 非 循环 有 辐 图 线 的 结 点 
Hee 














在 图 7.8 中 ，- L RFEA [| 表示 大 拇指 。 


运算 开始 时 ， 两 个 手指 头 分 别 指 在 第 一 个 图 和 第 二 个 图 的 初始 结 点 
上 ， 而 大 拇指 指 在 新 图 的 初始 结 点 上 。 每 当 我 们 的 手指 头 指向 第 一 个 图 
中 的 一 个 结 点 ， 而 且 我 们 的 另 一 个 手指 头 也 同时 指向 第 二 个 图 中 的 一 个 
结 点 的 时 候 ， 我 们 要 检查 一 下 离开 这 些 结 点 的 边 上 的 标记 是 否 相 容 ， 然 
后 ， 就 在 新 图 中 造 一 条 新 的 边 ， 并 把 这 个 标记 记录 在 新 的 边 上 ，...， 如 
此 进行 下 去 。 按 此 方式 ， 我 们 的 手指 头 不 断 地 在 第 一 个 图 和 第 二 个 图 上 
移动 ， 我 们 的 大 拇指 也 不 断 地 在 新 图 中 造 出 新 的 边 并 作出 相应 的 标记 ， 
只 要 这 些 标记 是 彼此 相 容 的 ， 最 后 我 们 就 可 以 得 到 合 一 运算 的 结果 。 如 
图 7.8 所 示 。 








前 面 我 们 介绍 了 如 何 用 非 循 环 有 问 图 线 来 描述 复杂 特征 ， 下 和 面 ， 我 
们 再 介绍 一 下 如 何 用 非 循环 有 问 图 线 来 摘 述 语法 规则 。 


在 上 下 文 无 关 的 短语 结构 语法 中 ， 语 法 规则 的 左 部 LHS 是 单个 的 范 


畴 ， 而 其 右 部 RHS 则 是 范畴 组 成 的 序列 。 如 有 打 采 用 复杂 特征 的 办 法 ， 可 
以 对 规则 的 左 部 和 右 部 作 进一步 的 说 明 。 

















(b) 


O —— O 


(c) 











例如 ， 下 面 的 规则 


S = NP VP 
«NP head» - «VP head» 


«S subj» - «NP» 
可 以 进一步 改写 为 


XO 一 X1 X2 
«X0 cat» = S 
«X1 cat» - NP 
«X2 cat» - VP 
«X1 head» - «X2 head» 


«X0 subj» = «X1» 


这 个 规则 说 明 ， 如 果 X0 的 cat 是 S，X1 的 cat 是 NP，X2 的 cat 是 VP， 
XI1 的 head 与 X2 的 head 相 同 ，X0 的 subj 是 X1， 那 么 ， 范 畴 X0 就 可 以 重 写 
为 范畴 X1 加 上 它 后 面 的 范畴 X2。 


这 个 规则 ， 可 以 用 如 下 的 非 循环 有 癌 图 线 来 表示 (图 7.9) : 


X0 XI X2 


: 


A | N / 
cat subj cat head head cat 
O 


O O O 
N NP 
图 7.9 用 非 循环 有 向 线 来 表示 规则 
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下 面 ， 我 们 进一步 说 明 如 何 用 基于 复杂 特征 的 语法 来 进行 图 线 剖 


析 。 





基于 复杂 特征 的 图 线 剂 析 与 基于 单一 特征 的 图 线 放 析 的 主要 不 同 之 


处 在 于 





第 一 ， 表 达 复 杂 特 征 的 语法 、 规 则 与 词汇 条 目 比 表达 单一 特征 的 语 





法 、 规 则 与 词汇 条 目的 内 容 更 加 丰富 ; 


第 二 ， 表 达 复 杂 特 征 的 图 线形 式 比 表 达 单 一 特征 的 图 线形 式 更 加 繁 





我 们 在 第 六 章 中 说 过 ， 图 线 的 边 的 结构 带 有 如 下 的 成 分 : 


«START» = ... 某 个 正 数 ..…. 
«FINISH» = ... 某 个 正 数 ..…. 
«LABEL»? = ... 某 个 范畴 ... 
«FOUND? = .…. 某 个 范畴 系列 .… 


<TOFIND> = ... 某 个 范畴 系列 ... 


《表示 边 从 哪里 开始 ) 
(表示 边 在 哪里 结束 ) 
(表示 边 的 主要 目标 ) 
(表示 短语 中 已 经 找到 的 部 分 ) 
(表示 短语 中 尚未 找到 的 部 分 ) 


我 们 把 LABEL，FOUND 和 TOFIND 等 成 分 用 带 圆 点 的 规则 来 表示 ， 
其 中 ，LABEL 是 规则 的 左 部 ，FOUND 是 规则 右 部 中 位 于 圆 点 之 前 的 范 
畴 系列 ，TOFIND 是 规则 右 部 中 位 于 圆 点 之 后 的 范畴 系列 。 为 了 表达 复 





杂 特 征 ， 线 图 边 上 的 LABEL 不 再 由 一 般 的 范畴 来 表示 ， 而 是 由 非 循环 
有 向 图 线 DAG 来 表示 ， 线 图 边 上 的 FOUND 和 TOFIND 也 同样 由 非 循环 
有 向 图 线 来 表示 ， 这 样 ，LABEL，FOUND 和 TOFIND 等 成 分 合 在 一 起 ， 
成 为 由 若干 个 非 循 环 有 向 图 线 DAG 构 成 的 一 个 系列 。 


在 一 条 边 上 的 这 些 非 循环 有 向 图 线 DAG 一 般 并 没有 必要 列举 出 全 部 
的 特征 ， 它 们 只 须 构 成 一 个 规则 ， 足 以 说 明 各 个 范畴 之 间 的 关系 就 行 
了 。 下 面 的 图 6.10 就 是 由 非 循 环 有 回 几 线 DAG 构 成 的 一 条 英语 语法 的 规 
则 ， 这 个 规则 标注 在 活性 边 上 ， 规 则 中 带 有 圆 点 <“e”(〈 为 了 醒目 ， 我 们 
把 圆 点 放大 了 ) 。 


O — O o O 
cat AA- PA 
mood mood 
O O O O O O 
S NP 3 VP 3 
O 


图 7.10 ”活性 边 上 的 一 条 由 DAG 构 成 的 规则 























这 条 规则 说 明 ， 我 们 已 经 找到 了 一 个 NP， 这 个 NP 的 per CARR) 为 
3， 如 果 我 们 还 能 找到 一 个 per 为 3 的 VP， 而 且 这 个 VP 的 num (4%) 与 NP 
的 num 相 同 ， 那 么 ， 我 们 就 可 以 把 NP 和 VP 结合 成 一 个 S$， 这 个 S$ 的 
mood《〈 语 式 ， 如 陈述 式 、 命 令 式 、 疑 问 式 等 ) 与 VP 的 mood 相 同 。 这 个 
规则 的 主干 相当 于 英语 中 上 下 文 无 关 的 短语 结构 语法 的 如 下 的 单一 特征 
规则 : 


<i, j, 5 — NP.VP> 


可 见 ， 表 示 复 杂 特 征 的 规则 比 表 示 单 一 特征 的 规则 丰富 得 多 ， 单 一 
特征 规则 构成 了 复杂 特征 规则 的 主干 ， 它 表示 了 规则 的 最 起 码 的 要 求 ， 
它 只 是 说 明了 在 英语 中 一 个 NP 后 面 跟着 一 个 VP 束 可 以 构成 一 个 S$， 而 复 
杂 特 征 还 进一步 说 明 NP 与 VP 的 num 必 须 一 致 ，per 应 该 等 于 3，S 的 mood 
与 VP 的 mood 也 必须 一 致 。 由 此 可 见 ， 基 于 复杂 特征 的 规则 确实 比 基 于 
单一 特征 的 规则 多 姿 多 彩 。 





下 面 的 图 7.11 是 标注 在 非 活性 边 上 的 一 条 由 非 循环 有 回 图 线 构成 的 
规则 ， 规 则 中 也 融 有 圆 点 <“e”。 


O — ç e ©@ 
cat /num mood 
O O O 
VP sing declare 


R711 非 活性 边 上 的 一 条 由 DAG 构 成 的 规则 





这 个 规则 表示 ， 我 们 找到 了 一 个 VP， 它 的 num 为 sing 〈 单 数 ) "E 
的 mood 为 declare《〈 陈 述 式 ) ， 规 则 右 部 的 其 他 特征 都 省 略 了 ， 只 是 在 规 
则 右 部 的 末尾 加 了 圆 点 ， 表 示 所 有 其 他 的 特征 都 与 我 们 的 要 求 相 吻合 。 
例如 ， 如 果 我 们 想 找 到 一 个 per 为 3 的 VP， 那 么 ， 这 个 VP 总 是 符合 要 求 
的 。 








这 条 规则 的 主干 相当 于 上 下 文 无 关 短 语 结构 语法 的 单一 特征 规则 : 


SN mu m 


这 样 的 边 也 可 以 按 图 线 的 基本 规则 结合 起 来 。 例 如 ， 图 7.10 中 的 活 
性 边 与 图 7.11 中 的 非 活 性 边 束 可 以 用 基本 规则 结合 起 来 。 图 7.10 中 的 活 
性 边 要 求 圆 点 之 后 的 VP 的 人 称 为 第 三 人 称 (er = 3) ， 这 与 图 7.11 中 的 
非 活 性 边 上 的 信息 相 容 ， 因 此 ， 可 以 把 它们 结合 起 来 ， 其 结果 如 图 7.12 
Bras: 





Q — 
cat cat 
O O 
S NP 
mood 





declare 


图 7.12 ”应 用 基本 规则 的 结果 











从 图 7.12 中 可 以 看 出 ， 由 于 活性 边 上 的 规则 要 求 S 的 mood 与 VP 的 
mood 一 致 ， 而 非 活 性 边 上 的 规则 中 ，VP 的 mood 为 declar《〈 陈 述 式 ) ， 
所 以 ，S 的 mood 也 为 declar《〈 陈 述 式 ) ;由 于 活性 边 上 的 规则 要 求 NP 的 
num 与 VP 的 num 相 同 ， 而 非 活 性 边 上 的 规则 中 ，VP 的 num 为 sing， 所 
以 ，NP 的 num 必 为 sing。 由 于 在 活性 边 上 的 规则 中 ， 圆 点 之 后 要 求 找 碍 
的 VP 的 非 循 环 有 向 图 线 DAG 与 我 们 在 非 活 性 边 上 的 规则 中 所 发 现 的 VP 
的 非 循 环 有 癌 图 线 DAG 都 相 容 ， 因 此 ， 就 可 以 应 用 基本 规则 把 它们 结合 








起 来 ， 进 行 合 一 运算 ， 其 运算 的 结果 ， 形 成 了 一 条 新 的 边 ， 在 这 条 边 上 
的 规则 中 ， 整 个 句子 的 各 个 部 分 的 信息 都 合 在 一 起 了 ， 信 息 也 都 增多 
了 。 而 且 ， 原 来 在 活性 边 上 的 那 条 规则 中 的 圆 点 位 置 问 右 移动 到 了 VP 


之 后 ， 形 成 了 新 的 规则 。 这 条 新 规则 的 主干 相当 于 上 下 文 无 关 短 语 结构 
语法 的 如 下 的 单一 特征 规则 : 











<i, k, S > NP VP .> 
活性 边 上 的 标记 的 主干 为 
<i, j, S > NP. VP», 

非 活 性 边 上 的 标记 的 主干 为 
ej e VP. iud 

形成 的 新 边 上 的 标记 的 主干 为 


<i, k, S > NP VP .>。 


aI, URRE NECA EZ Tur P EE SE = A D3 
AS REIL A ty 0] Be eal A es EROR. ru ET RRE SZ 
ESET REN EE HT SER S WRASSE AS E. EE 
杂 特 征 确 实 使 图 线 训 析 锦 上 添 花 ， 更 为 生 色 。 
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近年 来 在 自然 语言 计算 机 处 理 中 ， 词 汇 的 地 位 显得 越 来 越 重 要 ， 许 
多 学 者 的 研究 工作 逐渐 从 对 语言 结构 事实 的 解释 转向 对 词语 事实 的 解 
释 ， 这 就 是 当代 语言 学 研究 中 的 词汇 主义 〈lexicalism) 倾向 。 研 究 实践 
证 明 ， 许 多 过 去 用 句法 规则 难于 处 理 的 问题 ， 一 旦 采用 词汇 规则 就 可 以 
迎刃而解 。 我 们 确实 有 必要 来 讨论 一 下 如 何 用 复杂 特征 来 描述 词汇 的 问 


el 














在 一 个 实用 的 自然 语言 处 理 系统 中 ， 词 汇 单元 所 包含 的 特征 应 该 是 
多 方面 的 。 尽 管 由 于 自然 语言 处 理 系统 的 目的 不 尽 相同 ， 不 同 的 系统 对 
于 词汇 的 描述 各 具 特 色 ， 但 是 ， 各 个 系统 几乎 都 要 具体 地 描述 词 的 词类 
特征 ， 词 的 次 类 及 其 语法 特征 ， 如 词 的 性 、 数 、 人 称 、 时 态 、 体 、 语 

气 、 语 态 等 等 。 如 果 要 作 较为 深入 的 自动 剖析 ， 还 需要 描述 单词 的 语义 
特征 ， 在 许多 有 届 折 变化 的 语言 中 ， 除 了 描述 单词 形态 规则 的 届 折 变化 
之 外 ， 还 需要 描述 单词 形态 的 不 规则 届 折 变化 。 在 这 一 节 中 ， 我 们 来 研 
究 一 下 如 何 用 复杂 特征 表示 词汇 中 所 包含 的 信息 问题 























词汇 中 所 包含 的 纯 句法 信息 主要 有 三 种 类 型 ， 








(1) 词类 特征 : 例如 ， 茶 词 为 动词 ， 肝 词 为 名 词 等 


(2) 词 与 词 之 间 的 结合 特征 : 例如 ， 茶 词 的 主语 是 什么 ， 茶 词 的 


补 语 是 什么 等 ; 


(3) 与 句法 有 关 的 词 的 其 他 特征 : 例如 ， 名 词 的 性 、 数 等 。 





这 三 种 类 型 的 纯 在 基于 特征 的 句法 分 析 中 是 用 词 的 句法 
范畴 来 表示 的 。 例 如 ， 德 语 Midchen 〈 姑 娘 ) 的 句法 信息 可 表示 为 : 


lexeme Madchen: 
<cat> = N 


<gender> = neut 


其 中 ，<gender> 表 示 “ 性 >”， 其 值 neut 表 示 “ 中 性 ”Cneutral) 。 因 此 ， 这 个 
词汇 条 目 表 示 德 语 的 Midchen 是 一 个 中 性 名 词 。 





英语 love〈 爱 ， 喜 欢 ) 的 句法 信息 可 表示 为 : 


lexeme love: 
«cat» = V 
«argO cat» = NP 
«argO case» = nom 
«argi cat» = NP 


<arg1 case» = acc 


其 中 ，<arg0 case> 表 示 “ 论 元 0 的 格 ”"， 其 值 nom 表 示 “ 主 
格 ”(nominative) , <arg1 oe i 
格 ”(accusative》。 因 此 ， 这 个 词汇 条 目 表示 英语 love 是 一 个 动词 。 
个 动词 具有 一 个 主格 主语 NP 和 一 个 宾 格 宾语 NP。 我 们 用 arg0 a 
表示 主语 ， 用 argl〈 论 元 1) 表示 直接 宾语 。 








英语 give (给) 的 句法 信息 可 表示 为 : 


lexeme give: 


«cat» = v 


«argO cat» = NP 
«argO case» = nom 
«argi cat» = NP 
«argi case» = acc 
«arg2 cat» - PP 


«arg2 pform» - to 


其 中 ，PP 表 示人 介词 词组 ，<arg2 ”pform> 表 示 论 元 2 这 个 介词 词组 的 
介词 形式 (pform) 是 to。 


英语 bet 打赌) 这 个 动词 使 得 我 们 还 得 使 用 arg3 来 表示 论 元 3。 例 
如 ， 在 句子 


He bets me ten dollars on John's coming. 


(他 认为 约 允 会 来 ， 与 我 打赌 十 元 。) 


其 中 ，he 是 arg0，ten dollars 是 arg1，me 是 arg2，on John's coming 是 
arg3， 论 元 3 Carg3) 表示 在 哪 一 方面 打赌 ， 也 就 是 打赌 的 内 容 。 





当然 ， 有 时 动词 也 可 以 不 提 打赌 的 内 容 ， 这 时 ，arg3 就 等 于 零 了 。 
例如 ， 句 子 


He bets me ten dollars. 


(他 与 我 打赌 十 元 。) 


在 这 种 情况 下 ， 英 语 的 bet 这 个 动词 的 句法 特征 可 用 如 下 的 规则 来 
表示 : 


当 不 提 打 赌 的 内 容 时 ， 表 示 为 规则 1。 


规则 1: 


VP > V X1 X2 
«V argi> = X1 
«V arg2> = X2 


<V arg3> = 0 
当 提 到 打赌 的 内 容 时 ， 表 示 为 规则 2。 
规则 : 


VP > V X1 X2 X3 
«V argi> = X1 
«V arg2» - X2 


«V arg3> = X3 


一 般 说 来 ， 用 arg0,， arg1，arg2，arg3 四 个 论 元 来 描述 英语 动词 已 经 足 
ET. 


上 述 的 表示 方法 是 针对 一 个 一 个 的 英语 动词 的 。 英 语 中 动词 成 干 上 
万 ， 仪 像 love 这 样 的 及 物 动 词 ， 和 常用 的 就 有 数 干 个 ， 如 果 一 个 动词 一 个 
动词 地 来 逐一 进行 描述 ， 词 库 的 容量 将 会 变 得 十 分 庞大 。 为 了 避免 这 种 
困难 局 面 ， 我 们 可 以 采用 一 种 简便 的 “ 宏 表 示 法 ”(Macros) 。 











宏 表示 法 把 动词 加 以 分 类 ， 按 类 来 记录 动词 的 复杂 特征 。 在 英语 的 
描述 中 ， 宏 表示 法 把 英语 动词 分 为 四 类 : 


(1) 不 及 物 动词 ， 如 die( 死 ， 凋 谢 ) 。 
TET 


The flowers soon die. 


( 花 很 快 就 凋谢 了 。 ) 
中 ，die 的 arg0 是 fowers〈 花 ) ， 它 是 一 个 作 主 格 主语 的 NP。 
这 一 类 不 及 物 动词 的 宏 表示 法 如 下 : 


Macro syn iV: 
«cat» = V 
«argO cat» = NP 


«argo case» = nom 
其 中 ，syn_iV 表 示 不 及 物 动词 Cintransitive verb) 的 句法 特征 。 
(2) 及 物 动 词 : 如 eat (Hz) 。 
在 句子 


Tigers eat meat. 


(老虎 吃 鲜 肉 。) 


中 ，eat 的 arg0 是 tigers (老虎 ) ， 它 是 一 个 作 主 格 主语 的 NP，eat 的 arg1 
是 meat〈 鲜 肉 ) ， 它 是 一 个 作 宾 格 宾语 的 NP。 由 于 主格 主语 在 不 及 物 
动词 的 宏 表 示 法 Macro syn_iV 中 已 经 出 现 过 ， 故 不 再 重复 写 出 ， 简 写 为 





syn_iV 即 可 。 这 一 类 及 物 动词 的 宏 表 示 法 如 下 : 


Macro syn tV: 
syn iV 
«argi cat» = NP 


«argi case» = acc 


其 中 ，syn_tV 表 示 及 物 动 词 (transitive verb) 的 句法 特征 。 


在 调用 Macro syn_tV 时 ， 应 该 同时 激活 Macro syn_iV， 也 就 是 说 ， 
Macro syn_tV 应 该 与 Macro syn_iV 一 块 儿 调用 。 


(3) 双 及 物 动 词 : 如 give (44) 。 
在 句子 


We give a book to the boy. 
(我 们 给 了 这 个 男孩 儿 一 本 书 。) 


中 ，give 的 arg0 是 we (RAID ， 它 是 一 个 作 主 格 主语 的 NP，give 的 arg1 

是 a book〔 一 本 书 ) ， 它 是 一 个 作 宾 格 宾语 的 NP，give 的 arg2 是 to the 
boy， 它 是 一 个 介词 形式 (pform) 为 to 的 PP。 由 于 主格 主语 在 不 及 物 动 
词 的 宏 表示 法 Macro syn_iV 中 已 经 出 现 过 ， 宾 格 宾语 在 及 物 动词 的 宏 表 
示 法 Macro syn_tV 中 已 经 出 现 过 ， 故 不 再 重复 写 出 ， 只 简写 为 syn_tV。 

这 一 类 双 及 物 动词 的 宏 表 示 法 如 下 : 





Macro syn. dtV: 
syn tV 
«arg2 cat» - PP 


«arg2 pform» - to 
其 中 ，syn_dtV 表 示 双 及 物 动词 (ditransitive verb) 的 句法 特征 。 


在 调用 Macro syn_dtV 时 ， 应 该 同时 激活 Macro syn_tV， 也 就 是 说 ， 
Macro syn_dtV 应 该 与 Macro syn_tV 一 块 儿 调用 ， 而 当 调 用 Macro syn tV 
时 ， 又 得 激活 Macro ”syn_iV， 所 以 ， 在 调用 Macro syn_dtV 时 ，Macro 
syn_tV 及 Macro syn_iV 都 激活 了 。 


(4) 给 予 动词 : 如 hand (递交 ) 。 
在 合子 


My brother hands me the hammer. 


《我 的 弟弟 把 锤子 送 给 我 。) 


中 ，hand 的 arg0 是 my brother 〈 我 的 弟弟 ) ， 它 是 一 个 作 主 格 主语 的 
NP，hand 的 arg1 是 the hammer CBE) ， 它 是 一 个 作 宾 格 宾语 用 的 NP， 

hand 的 arg2 是 me (R) ， 它 是 另 一 个 作 宾 格 宾语 的 用 的 NP， 由 于 主格 

主语 在 不 及 物 动词 的 宏 表 示 法 Macro syn_iV 中 已 经 出 现 过 ， 第 一 个 宾 格 
宾语 在 及 物 动词 的 宏 表 示 法 Macro syn_tV 中 已 经 出 现 过 ， 故 不 再 重复 写 
出 ， 只 简写 为 syn_tV， 这 一 类 给 予 动 词 的 宏 表 示 法 如 下 : 


Macro syn. datV: 
syn tV 
«arg2 cat» - NP 


«arg2 case» - acc 





其 中 ，syn_datV 表 示 给 予 动词 (dative verb) 的 句法 特征 。 


在 调用 Macro ”syn_datV 时 ， 应 该 同时 激活 Macro syn tV. Tui 
Macro syn_tV 时 ， 也 必得 要 先 激活 Macro syn_iV， 这 样 ， 在 调用 Macro 
syn_datV 时 ，Macro syn_tV 和 Macro syn_iV 都 激活 了 。 








这 种 宏 表示 法 大 大 地 简化 了 词汇 的 句法 特征 的 写法 ， 它 用 一 个 简单 
的 符号 来 代 人 将 一 大 串 复 杂 特 征 。 例 如 ， 用 syn_iV 这 样 的 简单 符号 ， 就 代 
$$ f <cat>=V, <arg0 cat>=NP, <arg0 case>=nom 等 复杂 特征 。 在 词汇 条 目 


中 ， 每 当 我 们 调用 一 个 宏 表示 时 ， 也 就 等 于 调用 了 它 所 代替 的 一 大 串 复 








杂 特 征 ， 我 们 甚至 可 以 用 一 个 宏 表示 来 定义 男 一 个 宏 表示 ， 例 如 ， 用 宏 
表示 syn_iV 来 定义 宏 表 示 syn_tV。 








采用 这 些 手段 ， 我 们 可 以 把 词汇 条 目 表 达 得 十 分 简洁 。 


例如 ， 我 们 可 以 把 die( 死 ， 凋 谢 ) ，elapse CHE) , eat (NZ) , 
give (Z5) , hand (递交 ) ，love〈 爱 ， 喜 欢 ) 等 单词 条 目 用 宏 表 示 法 
写成 如 下 的 形式 : 


Lexeme die: 

syn iV 
Lexeme elapse: 

syn iV. 
Lexeme eat: 

syn iV. 
Lexeme eat: 

syn tV. 
Lexeme give: 

syn tV. 
Lexeme give: 

syn dtV. 
Lexeme give: 

syn. datV. 
Lexeme hand: 

syn. dtV. 
Lexeme hand: 

syn. datV. 


Lexeme love: 


syn tV. 


Aa EAS T A FR] AVERSA, Aime Ta WAAAY 
词汇 条 目 。 例 如 ，eat 可 以 为 不 及 物 动词 ， 又 可 为 及 物 动 词 ， 故 可 归 入 词 
汇 条 目 syn_iV 和 syn_tV; give 可 以 为 及 物 动词 、 双 及 物 动词 、 给 予 动 
词 ， 故 可 归 入 词汇 条 目 syn_tV， syn_dtV 和 syn_datV; hand 可 以 为 双 及 物 
动词 ， 又 可 以 为 给 予 动词 ， 故 可 入 词汇 条 目 syn_dtV 和 syn_datV。 











宏 表 示 大 大 地 简化 了 词汇 条 目的 写法 ， 但 在 自然 语言 计算 机 处 理 的 
过 程 中 ， 有 必要 对 宏 表 示 作 出 适当 的 解释 ， 以 适应 自然 语言 处 理 系 统 的 
特定 要 求 。 这 种 解释 ， 叫 做 宏 表示 的 扩展 Cexpantion of Macro) 。 宏 表 
示 扩 展 的 详 略 程度 视 上 自然 语言 处 理 系 统 的 不 同 要 求 而 有 所 不 同 ， 必 要 
时 ， 我 们 甚至 可 以 把 宏 表 示 直 接 扩展 为 词汇 条 目的 非 循环 有 回 图 线 
DAG. 

















例如 ， 宏 表示 


Lexeme give: 


syn tV. 


可 以 扩展 为 如 下 的 非 循 环 有 问 图 线 : 


give 
syn 


cat arg0 argl 


O O O 

V 
cat e cat jv 
O O O O 


图 7.13 ” 宏 表示 扩展 为 非 循环 有 向 图 线 











当然 ， 根 据 目 然 语言 处 理 系统 的 实际 需要 情况 ， 我 们 有 时 只 是 把 容 
表示 扩展 为 非 循环 有 疝 图 线 中 的 一 部 分 。 





把 宏 表 示 扩 展 之 后 ， 便 可 以 与 其 他 词汇 单元 的 非 人 循环 有 向 图 线 进行 
合 一 ， 谢 析 程 序 便 可 以 利用 词汇 条 目 中 所 包含 的 复杂 特征 进行 运算 。 


上 面 我 们 只 是 研究 了 词汇 的 句法 信息 的 表示 方法 ， 事 实 上 ， 词 汇 中 
还 包含 语义 信息 和 词法 信息 ， 我 们 在 词汇 条 目的 复杂 特征 描述 中 ， 有 必 
要 全 面 地 表示 出 词汇 中 所 包含 的 各 种 信息 ， 既 要 描述 句法 信息 ， 也 要 描 
述 词 法 信息 和 语义 信息 。 




















词汇 的 语义 信息 ， 对 于 动词 来 说 ， 主 要 是 它 的 论 元 信息 。 例 如 ， 动 
词 eat 可 有 不 同 的 论 元 。 在 句子 





We eat. 
(我 们 吃 。) 


中 ， 动 词 eat 只 有 一 个 论 元 arg0 (we) ; 在 句子 


We eat fish. 
(我 们 吃 鱼 。) 


中 ， 动 词 eat 有 两 个 论 元 : argo (we) 和 argl (fish) 。 因 此 ， 在 语义 
上 ， 我 们 有 必要 把 动词 eat 分 为 两 个 ， 只 有 一 个 论 元 的 eat 记 为 eatla， 具 
有 两 个 论 元 的 eat 记 为 eat2a， 其 中 的 数目 字 表 示 论 元 的 个 数 ，1 表 示 有 一 
个 论 元 ，2 表 示 有 两 个 论 元 。 














依 此 推 之 ， 在 句子 


We give fish to John. 
(FOE ZA.) 


中 的 give 有 三 个 论 元 : argo, — argl, arg2， 我 们 在 语义 上 把 give 记 为 


give3a. 


在 句子 


We give John fish. 
《我 们 给 约翰 鱼 。) 


中 的 give 也 有 三 个 论 元 : arg0， argl, arg2， 但 是 ， 其 中 的 arg2 不 带 介 词 
to， 为 与 give3a 相 区 别 ， 我 们 在 语义 上 把 这 个 give 记 为 give3b。 


这 里 的 1a，2a，3a，3b 等 只 是 一 种 语义 和 常数， 不 同 的 词 的 语义 常数 不 
尽 相 同 ， 这 样 ， 从 语义 常数 我 们 束 不 难看 出 词 在 语义 上 的 特性 。 








如 果 我 们 用 宏 表示 来 记录 词汇 的 句法 信息 ， 用 <sem> 来 记录 词汇 的 
if Ufa, ASA, die, elapse, eat, give, hand, have 等 单词 条 目 可 以 进一步 
表示 如 下 : 


Lexeme die: 

syn iV 

«sem» = diela. 
Lexeme elapse: 

syn_iV 

«sem» = elapseia. 
Lexeme eat: 

syn iV 

«sem» = eatia. 
Lexeme eat: 

syn tV 

«sem» - eat2a. 
Lexeme give: 

syn tV 


«sem» - give2a. 


Lexeme give: 

syn dtv 

«sem» - give3a. 
Lexeme give: 

syn. datV 

«sem» - give3b. 
Lexeme hand: 

syn. dtV 

«sem» - hand3a. 
Lexeme hand: 

syn. datV 

«sem» - hand3b. 
Lexeme love: 

syn tV 


«sem» - love2a 





在 词汇 条 有 目 中 ， 我 们 还 需要 词法 信息 。 英 语 的 一 个 动词 最 多 可 以 有 
八 个 不 同 的 形式 。 其 中 一 个 形式 是 词根 ， 其 他 七 个 形式 表示 不 同 的 语法 
E a 


例如 ， 瑞 语 的 不 规则 动词 be 的 八 个 形式 如 下 : 


root — be 
form1 — am 
form2 — are 
form3 — is 
form4 — was 


form5 — were 


form6 一 been 


form7 — being 





我 们 用 特征 root 来 表示 动词 的 词根 ， 用 特征 form1 到 form7 来 表示 动 
词 的 其 他 七 个 形式 : form1，form2 和 form3 表 示 第 一 人 称 ， 第 二 人 称 和 第 
三 人 称 的 现在 时 形式 ，form4 表 示 第 一 人 称 单数 过 去 时 形式 ，form5 表 示 
第 二 人 称 单数 过 去 时 形式 ，form6 表 示 过 去 分 词 形 式 ，form7 表 示 现 在 分 
词 形 式 。 不 规则 动词 be 的 这 八 个 形式 在 形态 上 各 不 相同 ， 而 且 词 根 与 其 
他 七 个 形式 在 形态 上 的 联系 也 不 是 一 眼 就 可 以 看 出 来 的 。 











英语 的 规则 动词 只 有 四 种 不 同 的 形式 ， 而 且 ， 它 们 在 形态 上 可 以 从 
iHe. POO, stamp (mie) 的 形式 如 下 : 


root — stamp 
form1 — stamp 
form2 — stamp 
form3 — stamps 
form4 一 stamped 
form5 — stamped 
form6 — stamped 


form7 — stamping 


为 了 分 析 上 的 方便 ， 我 们 把 规则 动词 的 这 SEVERI 部 分 : 一 部 分 
Wiel (stem) ， 一 部 分 叫 词尾 Cending) ， 这 样 ， 我 们 就 可 以 用 宏 表 
示 Macro mor_regV 来 记录 规则 动词 的 词法 信息 。 在 宏 表 示 Macro 
mor_regV 中 ，mor 表 示 词 法 (morphology) ，regV 表 示 规 则 动词 


(regular verb) 。 














Macro mor_regV: 

«mor formi stem» = «mor root» 
«mor formi ending» = € 

«mor form2 stem» - «mor root» 
«mor form2 ending» = 8 

«mor form3 stem» - «mor root» 
«mor form3 ending» - s 

«mor form4 stem» - «mor root» 
«mor form4 ending» - ed 

«mor form5 stem» - «mor root» 
«mor form5 ending» = ed 

«mor form6 stem» - «mor root» 
«mor form6 ending» - ed 

«mor form7 stem» = «mor root» 


«mor form7 ending» = ing 


这 里 ，mor 表 示 词 法 ，stem 表 示 词 干 ，ending 表 示 词 尾 ，e 表 示 空 词 
尾 ， 也 就 是 语法 中 的 零 形式 。 在 宏 表 示 Macro mor_regV 中 ， 当 词 干 与 词 
尾 结合 成 为 词 的 各 种 形式 时 ， 应 遵循 英语 正 词法 规则 。 例 如 ， 当 词 干 
love 与 词尾 ing 结 合 时 ，love 中 的 e 应 该 抹 去 ， 结 合 后 应 该 形成 loving， 而 
不 能 形成 loveing。 





如 果 我 们 在 一 个 英语 词 条 中 ， 同 时 考虑 句法 、 语 义 和 词 法 的 信息 ， 
并 使 用 宏 表 示 法 ， 那 么 ， 英 语词 条 可 表示 得 十 分 紧凑 和 简洁 。 例 如 ， 
stamp 这 个 词 条 可 表示 为 : 





Lexeme stamp: 


<mor root> = stamp 


mor regV 
syn tV 


«sem» - stamp2a 








这 种 表示 法 中 的 第 一 行 与 第 二 行 有 些 重 复 ， 因 为 词 条 名 与 词根 的 形 
式 是 等 同 的 。 为 了 表达 的 简洁 性 ， 我 们 提出 如 下 的 规定 : 


如 果 有 词 条 


Lexeme Xxx: 


«mor root» - Xxx 


yyy 
ZZZ 
我 们 可 以 将 其 简写 为 


Lexeme XXX 


yyy 


这 样 一 来 ，stamp 这 个 词 条 可 简写 为 : 


Lexeme stamp: 
mor_regV 
syn_tV 


<Sem> = Stamp2a 


根据 宏 表示 的 含义 以 及 有 关 的 简写 规定 ， 这 个 词 条 包含 的 信息 可 解 


释 如 下 : 


Lexeme stamp: 
<mor root> = stamp 
«mor formi stem» = stamp 
«mor formi ending» = 8 
«mor form2 stem» - stamp 
«mor form2 ending» = 8 
«mor form3 stem» - stamp 
«mor form3 eding> = s 
«mor form4 stem» = stamp 
«mor form4 ending» - ed 
«mor form5 stem» = stamp 
«mor form5 ending» = ed 
«mor form6 stem» - stamp 
«mor form6 ending» - ed 
«mor form7 stem» = stamp 
«mor form7 ending» = ing 
«syn cat» = V 
«syn argO cat» - NP 
«syn argO case» - nom 
«syn arg1 cat» = NP 
«syn argi case» = acc 


«sem» - stamp2a 





英语 中 的 规则 动词 都 可 以 用 这 样 的 方法 来 表示 ， 对 于 love 这 样 的 规 
则 动词 ， 只 须 考 虑 英语 正 词法 的 有 关 规 定 ， 处 理 一 下 love 后 面 的 e， 做 起 








来 也 不 困难 。 对 于 身 语 中 的 不 规则 动词 ， 则 应 该 根据 它们 在 形态 上 的 特 
点 ， 对 词法 的 宏 表 示 作 适当 的 调整 和 修改 。 例 如 ，eat 和 give 这 两 个 动 
词 ， 它 们 的 单数 第 一 人 称 过 去 时 与 单数 第 二 人 称 过 去 时 相同 ， 且 具有 特 
殊 的 形态 ，eat 的 特殊 形态 为 ate，give 的 特殊 形态 为 gave， 它 们 的 过 去 分 
词 均 加 词尾 en， 而 它们 的 现在 时 与 现在 分 词 形 式 则 与 其 他 规则 动词 一 
样 ， 因 此 ， 我 们 可 以 为 它们 写 一 个 宏 表 示 Macro mor_presV， 定 义 如 
下 : 


Macro mor presV: 
«mor formi stem» = «mor root» 
«mor formi ending» = 8 
«mor form2 stem» - «mor root» 
«mor form2 ending» = 8 
«mor form3 stem» = «mor root» 
«mor form3 ending» - s 
«mor form4 stem» = «mor form5 stem» 
«mor form4 ending» = € 
«mor form5 ending» = € 
«mor form6 stem» = «mor root» 
«mor form6 ending» - en 
«mor form7 stem» = «mor root» 


«mor form7 ending» = ing 








如 果 我 们 采用 上 述 的 简写 方法 ， 用 宏 表示 来 记录 词汇 的 词法 信息 和 
句法 信息 ， 用 <sem> 来 记录 词汇 的 语义 信息 ， 那 么 ，die, elapse, eat, give, 
hand, love 等 单词 条 目 可 以 完整 而 简洁 地 表示 如 下 : 


Lexeme die: 


Lexeme 


Lexeme 


Lexeme 


Lexeme 


Lexeme 


mor regV 

syn iV 

«sem» = diela. 

elapse: 

mor_regV 

syn_iV 

«sem» = elapseta. 

eat: 

mor presV 

«mor form4 stem» - ate 
syn iV 

«sem» = eatia. 

eat: 

mor presV 

«mor form4 stem» - ate 
syn tV 

«sem» - eat2a. 

give: 

mor presV 

«mor form4 stem» = gave 
syn tV 

«sem» - give2a. 

give: 

mor presV 

«mor form4 stem» = gave 
syn dtV 


«sem» - give3a. 


Lexeme give: 

mor. persV 

«mor form4 stem» = gave 

syn. datV 

«sem» - give3b. 
Lexeme hand: 

mor regV 

syn dtV 

«sem» - hand3a. 
Lexeme hand: 

mor regV 

syn. datV 

«sem» - hand3b. 
Lexeme love: 

mor regV 

syn tV 


«sem» - love2a. 





这 样 一 来 ， 我 们 便 可 以 十 分 方便 地 用 复杂 特征 来 描述 词汇 知识 和 表 
达 词 汇 知识 。 一 个 单词 经 过 了 我 们 在 第 二 章 所 述 的 词法 分 析 之 后 ， 词 尾 
和 词 干 都 已 经 确定 ， 再 通过 本 章 中 所 述 的 词汇 知识 的 复杂 特征 表示 法 ， 
用 复杂 特征 来 记录 词汇 知识 ， 这 必定 会 有 效 地 提高 句子 自动 剖析 的 准确 
性 。 














剖析 程序 调用 词汇 条 目 中 的 知识 ， 是 通过 合 一 运算 来 进行 的 。 如 果 
我 们 把 输入 句子 中 的 单词 叫做 生词 ， 用 word 来 表示 ， 把 记录 词汇 知识 的 
词汇 条 目 用 lexeme 来 表示 ， 那 么 ， 我 们 首先 要 建立 这 个 生词 word 与 词汇 





条 目 lexeme 之 间 的 关系 。 为 此 ， 我 们 必须 在 机 器 词典 中 建立 一 个 词 形 条 
款 (Word Form Clause， 简 称 WFC) ， 词 形 条 款 中 应 说 明 建 立 输 入 生词 
word 与 词汇 条 目 lexeme 时 所 需 的 条 件 。 下 面 是 关于 英语 动词 第 三 人 称 单 
数 现在 时 形式 的 词 形 条 款 WFC: 


WFC third sing: 
«word mor form» - «lexeme mor form3» 
«word syn» - «lexeme syn» 
«word syn cat» - V 
«word syn argO per» - 3 
«word syn argO num» = sing 
«word syn tense» - pres 


«word sem» - «lexeme sem» 


这 个 词 形 条 款 说 明了 输入 的 生词 word 应 该 满足 条 款 中 的 条 件 ， 即 : 
生词 的 形式 与 词汇 条 目的 form3 相 同 ， 生 词 的 syn 与 词汇 条 目的 syn 相 
同 ， 生 词 的 syn cat 为 V， 生 词 的 syn arg0 per 为 3， 生 词 的 syn arg0 num 为 
sing， 生 词 的 syn tense 为 pres， 生 词 的 sem 与 词汇 条 目的 sam 相同。 在 检 
查 这 些 条 件 时 ， 要 用 合 一 的 方法 对 生词 的 复杂 特征 与 词汇 条 目的 特征 进 
行 比较 和 运算 。 


例如 ， 如 果 输 入 的 生词 为 loves， 通 过 词法 分 析 ， 我 们 可 知 这 个 生词 
的 词法 形式 可 分 为 词 干 和 词尾 两 部 分 : 词 干 是 love， 词 尾 是 s。 





word loves: 
<mor form stem> = love 


<mor form ending> = S 


loves 的 这 些 信息 可 记录 在 一 个 非 循环 有 问 图 线 DAG 上 上 ， 然 后 ， 对 
生词 loves 的 DAG 中 记录 的 复杂 特征 与 词汇 条 目 love 的 DAG 中 记录 的 复杂 
特征 进行 合 一 ， 并 用 合 一 的 方法 来 检查 词 形 条 球 WFC third_sing 的 条 件 
是 否 满 足 。 如 果 这 样 的 合 一 成 功 了 ， 那 么 ， 束 把 合 一 的 结果 记录 到 生词 
loves 的 非 循 环 有 问 图 线 DAG 中 去 ; 如 果 合 一 失败 ， 那 么 ， 就 再 去 试验 
词汇 条 目 中 其 他 的 WFC。 对 于 我 们 的 例子 ， 由 于 合 一 成 功 ， 因 此 ， 在 生 
词 loves 中 ， 就 记录 上 如 下 的 合 一 结 


word loves: 
<mor form stem> = love 
<mor form ending> = S 
«syn cat» = V 
«syn tense» - pres 
«syn argg cat» = NP 
«syn argO case» = nom 
«syn argO per» - 3 
«syn argO num» - sing 
«syn arg1 cat» = NP 
«syn arg1 case» = acc 


«sem» - love2a 





loves 上 记录 的 这 些 复杂 特征 对 于 句子 的 剖析 当然 是 非常 有 用 的 。 


第 四 市 ”多 义 多 标记 树 模 型 


在 中 文 信息 处 理 中 ,复杂 特征 也 起 大 重要 的 作用 。 本 市 中 我 们 来 讨 


论 汉语 的 复杂 特征 问题 。 


现在 中 文 信息 的 计算 机 处 理 已 经 由 汉字 处 理 阶段 逐步 地 进入 了 词 处 
理 、 句 处 理 和 篇 章 处 理 的 阶段 。 我 们 不 仅 要 解决 在 计算 机 上 和 输出 输入 汉 
字 的 问题 ， 还 要 进一步 解决 在 计算 机 上 分 析 和 生成 汉语 句子 和 篇 章 的 问 
题 ， 这 些 问题 可 以 统称 为 “汉语 结构 自动 处 理 ”， 它 是 中 文 信息 处 理 的 一 
个 重要 方面 。 为 此 ， 需 要 我 们 根据 汉语 本 号 的 特点 ， 吸 收 国内 外 上 自然 语 
言 处 理 研究 的 新 成 果 ， 研 制 汉语 结构 自动 处 理 的 语言 模型 。 














语言 模型 只 是 语言 客观 事实 的 某 种 近似 物 ， 它 应 该 给 我 们 从 总 体 上 
提供 分 析 和 生成 语言 的 一 般 原 则 和 方法 。 但 是 ， 语 言 模 型 并 不 完全 等 同 
于 语言 客观 事物 本 身 ， 语 言 客 观 事物 的 完全 充分 的 描述 和 解释 ， 还 需要 
语言 学 家 作 大 量 的 工作 。 


近年 来 ， 我 在 外 汉 机 器 翻译 和 汉 外 机 器 翻译 的 研究 实践 中 ， 曾 经 在 
计算 机 上 ， 对 汉语 的 句法 与 语义 的 描述 作 了 大 量 的 工作 ， 对 于 汉语 的 句 
法 和 语义 特点 有 了 初步 的 认识 。 在 研究 实践 中 ， 我 还 学 习 了 图 论 的 有 关 
原理 和 形式 语言 理论 ， 吸 收 了 国外 自然 语言 处 理 的 新 的 研究 成 果 ， 在 20 
世纪 80 年 代 初 期 提出 了 “汉语 句子 的 多 又 多 标记 树 形 图 分 析 法 ”， 这 种 分 
析 法 又 叫做 中 文 信息 处 理 的 “多 又 多 标记 树 模型 ”(Multiple-branched and 
Mutiple-labeled Tree “Model， 简 称 “ 中 文 信 息 MMT 模 型 ?或 *<MMT 模 
型 >) 。 











根据 MMT 模 型 ， 我 于 1981 年 在 法 国 格 勒 诺 布 尔 理科 医科 大 学 应 用 
数学 研究 所 进行 了 汉 一 法 / 英 / 日 / 俄 / 德 多 语言 机 器 翻译 试验 ， 建 立 了 
FAJRA 系 统 ， 从 格 勒 诗 布 尔 回 北 京 之 后 ， 于 1985 年 我 又 利用 北京 遥感 技 
术 研 究 所 的 IBM-4341 计 算 机 ， 在 VM/CMS 操 作 系 统 下 ， 进 行 了 德 一 汉 
机 器 翻译 试验 和 法 一 汉 机 器 翻译 试验 ， 建 立 了 GCAT 德 一 汉 机 器 翻译 系 
统 和 FCAT 法 一 汉 机 器 翻译 系统 。 这 些 试验 都 采用 了 独立 分 析 独 立 生 成 
的 办 法 。 在 FAJRA 系 统 中 ， 独 立地 进行 汉语 的 分 析 ( 分 析 时 不 考虑 法 
语 、 英 语 、 日 语 、 俄 语 和 德语 ) ， 独 立地 进行 法 语 、 英 语 、 日 语 、 俄 语 
和 德语 的 生成 (生成 时 不 考虑 汉语 ) ， 在 分 析 和 生成 的 接口 处 ， 进 行 汉 
语 到 法 语 、 英 语 、 日 语 、 俄 语 和 德语 的 转换 。 在 GCAT 和 FCAT 系 统 
中 ， 独 立地 进行 德语 和 法 语 的 分 析 ( 分 析 时 不 考虑 汉语 ) ， 独 立地 进行 
汉语 的 生成 〈 生 成 时 不 考虑 德语 和 法 语 ) ， 在 分 析 和 生成 的 接口 处 ， 进 
行 德 汉 转换 和 法 汉 转 换 ， 并 通过 一 个 统一 的 、 单 独 的 汉语 生成 程序 来 接 
受 德 汉 转换 和 法 汉 转 换 的 结果 ， 生 成 合格 的 汉语 句子 作为 译文 输出 。 








通过 FAJRA 系 统 ， 我 们 检验 了 MMT 模 型 分 析 汉 语 的 能 力 ， 通 过 
GCAT 和 FCAT 系 统 ， 我 们 检验 了 MMT 模 型 生成 汉语 的 能 力 ， 实 验 结 果 
是 令 人 满意 的 。 实 践 证 明 ，MMT 模 型 是 汉语 结构 自动 处 理 的 一 个 较 好 
的 模型 。 





MMT 模 型 的 名 称 由 三 个 英文 字母 组 成 。 其 中 的 字母 T 是 喘 文 
Tree (PY) 的 缩 号 ， 表 示 这 是 一 个 “ 树 模 型 ”， 第 一 个 字母 M 是 英文 
Multiple-branched (Z X.) 的 缩写 ， 表 示 这 是 一 个 “多 又 的 模型 >， 第 二 
个 字母 M 是 英文 Multiple-labelled (RW) 的 缩写 ， 表 示 这 是 一 个 “多 
标记 的 模型 ”>。 所 以 ，MMT 这 几 个 字 ， 反 映 了 这 个 语言 模型 的 特点 。 在 
这 一 节 中 ， 我 们 按 “ 树 “多 又 ?和 "多 标记 ”的 顺序 ， 分 别 来 说 明 这 个 模 
型 的 基本 思路 和 方法 。 首 先 介 绍 基 于 短语 结构 语法 的 “多 义 树 形 图 *”， 然 








后 解释 “多 标记 ”和 “多 标记 函数 ”的 概念 。 





索 绪 尔 在 其 名 车 《普通 语言 学 教程 》 中 曾经 指出 ， 线 条 性 是 语言 的 
最 重要 的 特征 之 一 ， 语 言 符号 在 本 质 上 是 一 个 前 后 相 续 的 线形 序列 。 我 
们 在 本 书 第 一 半 已 经 说 明 ， 索 绪 尔 关于 语言 的 线条 性 的 这 种 观点 是 片面 
的 。 布 龙 菲 尔 德 等 指出 了 语言 符号 具有 层次 性 ， 他 们 认为 ， 在 语言 符号 
在 结构 上 是 一 层 一 层 地 组 织 而 成 的 。 

















我 们 在 计算 机 上 对 语言 的 分 析 实 验证 明 : 语言 符号 的 前 后 相 续 的 线 
条 特性 只 是 表面 现象 ， 在 每 一 个 句子 的 线性 的 表面 形式 之 下 ， 都 隐藏 痢 
一 个 多 层次 的 结构 。 这 种 多 层次 的 结构 在 数学 上 最 直观 的 表达 形式 就 是 
树 形 图 。 








语言 中 的 任何 一 个 句子 的 表层 形式 之 下 都 隐藏 着 一 个 以 上 的 树 形 
图 ， 从 句子 的 表层 形式 的 掩盖 之 下 来 揭示 其 树 形 图 结构 的 格局 和 数目 的 
多 寡 ， 正 是 卓然 语言 结构 分 析 的 重要 任务 。 


BOO, “三 个 学 校 的 实验 员 来 了 ”这 个 语言 片段 的 表层 形式 下 ， 隐 藏 
着 两 个 不 同 的 树 形 图 。 如 图 7.14 和 图 7.15 所 示 : 


Tl: 


uem TOES 
CLP NP V PART 
P db | | 
CARD QTF AP 来 T 





图 7.14 ” 树 形 图 T1 





T. E 
"cond US 
AP NP V PART 
NP PART N 来 T 
E S | 
CLP NP 的 实验 员 


图 7.15“” 树 形 图 T2 








在 上 面 的 树 形 图 中 ，S 表 示 句 子 ，NP 表 示 名 词 词组 ，VP 表 示 动 词 词 
组 ，AP 表 示 形 容 词 词组 ，CLP 表 示 数 词 词组 ，N 表 示 名 词 ，V 表 示 动 
词 ，CARD 表 示 数 词 ，QTEF 表 示 量 词 ，PART 表 示 助 词 。 它 们 都 是 树 形 
图 中 的 标记 。 


由 于 T1 和 T2 的 层次 各 不 相同 ， 所 以 ， 它 们 代表 着 不 同 的 结构 。 树 


形 图 T1 和 T2 的 不 同形 式 ， 显 示 了 在 表面 上 相同 的 线形 形式 之 下 ， 隐 藏 
者 实质 上 大 相 许 径 的 层次 结构 。 


树 形 图 由 结 和 连接 结 的 枝 组 成 。 每 一 个 结 有 一 个 标记 ， 其 中 ， 有 的 
标记 是 表示 词组 类 型 和 词类 的 ， 如 S、NP、VP、V、N、CARD、PART 
等 ， 它 们 从 来 不 出 现在 具体 的 句子 的 线形 符号 串 之 中 ， 称 之 为 非 终 极 标 
ii: 有 的 标记 是 表示 语言 中 具体 的 词 的 ， 如 “学 校 >、“ 实 验 
fj". "n. cm. "Hye. cox». SPS, "EDITAE DH UCE RS RU T UR PI ZR 
FSH, MN Agi. 











S 
R 





树 形 图 中 各 个 结 反之 间 ， 有 两 种 关系 值得 注意 : 一 种 古文 配 关系 ， 
一 种 是 前 于 关系 。 


如 果 在 树 形 图 中 从 结 点 x 到 结 点 y 的 所 有 的 枝 都 有 同一 的 方向 ， 那 
么 ， 我 们 就 说 结 点 x 文 配 结 点 y。 例 如 ， 在 图 7.14 的 树 形 图 T1 中 ， 标 有 AP 
的 结 点 文 配 着 标 有 “的 ”的 结 点 ， 因 为 连接 结 点 AP 与 结 点 “的 ”的 校 都 一 律 
从 较 高 的 结 点 AP 下 降 到 较 低 的 结 点 “的 "。 但 是 ， 标 有 VP 的 结 点 不 支配 
标 有 “的 ”的 结 点 ， 因 为 连接 这 两 个 结 点 的 校 要 首先 从 结 点 VP 上 升 到 结 点 
S， 再 从 结 点 S 通 过 上 下 不 同 的 两 个 结 点 NP、 结 点 AP 以 及 结 点 PART 下 
降 到 结 点 “的 ?。 妆 结 点 x 文 配 结 点 y 时 ， 结 点 y 就 叫做 结 点 x 的 后 背 


(descendant) 。 

















如 果 结 点 x 与 结 点 y 是 相 寞 的 ， 结 把 x 文 配 结 点 y， 而 且 ， 结 点 x 与 结 
扩 y 之 间 没 有 男 一 个 相 异 的 结 点 ， 那 么 束 说 ， 结 反 x 和 直接 支 配 结 点 y。 在 
图 7.14 的 树 形 图 T1 中 ， 标 有 AP 的 结 点 直接 支配 标 有 PART 的 结 点 ， 但 不 
直接 支配 标 有 “的 ”的 结 点 。 当 结 点 x 直 接 文 配 结 点 y 时 ， 结 点 y 就 叫做 结 
点 X 的 直接 后 裔 或 儿子 。 被 同一 个 结 点 直接 文 配 的 相 异 的 结 点 ， 叫 做 兄 
第 。 图 7.14 的 树 形 图 T1 中 ， 标 有 AP 的 绪 点 有 两 个 直接 后 裔 ， 即 在 AP 之 























下 的 标 有 NP 的 结 点 和 标 有 PART 的 结 点 ，AP 结 点 下 的 NP 和 PART 两 个 结 
点 是 兄弟 。 文 配 关 系 中 不 被 任何 其 它 的 结 点 文 配 的 结 点 ， 叫 做 根 
(root) 。 在 图 7.14 中 ， 标 有 S 的 结 点 就 是 根 。 被 其 它 结 点 支配 而 不 文 配 
任何 其 它 结 点 的 结 点 ， 叫 做 叶 (leaves，〉。 图 7.14 中 ， 标 有 终极 标 
Ihe. Eq OSEE S 的 那些 结 点 都 是 叶 。 一 般 说 来 ， 树 形 图 是 
从 上 到 下 画 出 的 ， 所 以 ， 根 总 是 在 顶部 ， 叶 总 是 在 底部 。 











树 形 图 中 的 两 个 结 点 ， 只 有 当 它 们 之 间 疫 有 文 配 关系 的 时 候 ， 才 能 
在 从 左 到 右 的 方向 上 排序 。 这 时 ， 这 两 个 结 点 之 间 ， 就 存在 前 于 关系 ， 
左边 的 结 点 前 于 右边 的 结 点 。 在 图 7.14 的 树 形 图 T1 中 ， 标 有 “三 ”的 结 点 
前 于 标 有 VP 的 结 反 以 及 所 有 被 VP 文 配 的 结 点， 因为 结 反 “三 ”与 结 扩 VP 
之 间 不 存在 文 配 关 系 。 但 是 ， 标 有 “三 ”的 结 点 不 能 前 于 文 配 它 的 CARD 
与 CLP 等 结 点 。 可 见 ， 文 配 关 系 同 从 堪 到 右 的 前 于 关系 是 互相 排斥 的 。 
也 就 是 说 ， 在 树 形 图 中 ， 如 果 两 个 结 点 x 与 y 之 间 存 在 前 于 关系 ， 那 么 ， 
x 与 y 之 间 必 定 不 能 存在 文 配 关系 ， 并 且 ， 如 果 结 反 x 前 于 结 皮 y, 那 么 ， 
由 结 点 x 文 配 的 所 有 的 结 点 都 前 于 由 结 皮 y 文 配 的 所 有 的 结 点 。 




















根据 树 形 图 的 这 些 性 质 ， 我 们 从 中 可 以 看 出 ， 一 个 树 形 图 可 以 给 我 
们 提供 如 下 五 个 方面 的 语言 信息 : 


第 一 ， 句 子 中 所 包含 的 单词 数目 : 树 形 图 中 叶 的 数目 ， 便 是 句子 中 
所 包含 的 单词 的 数目 。 在 图 7.14 的 树 形 图 T1 中 ， 有 7 个 叶 ， 因 此 ， 句 子 
包含 的 单词 数 为 7。 


第 二 ， 句 子 中 各 个 单词 的 词 形 : 树 形 图 中 叶 上 的 终极 标记 ， 就 是 名 
子 中 单词 的 词 形 。 在 图 7.14 的 树 形 图 T1 中 ， 句 子 中 单词 的 词 形 分 别 
为 “三 ”、 “个 ”、 “学 校 ”、 “的 ”、 “实验 员 ?”、 “来 ”、 ior 


第 三 ， 句 子 中 各 个 单词 的 顺序 : 我 们 只 要 把 树 形 图 的 各 个 时， 按 从 
左 到 右 的 前 于 关系 排列 起 来 ， 避 ® 可 以 得 到 该 树 形 图 所 表示 的 句子 的 词 
序 。 在 图 7.14 的 树 形 图 T1 中 ， 把 各 个 叶 按 从 天 到 右 的 顺序 排列 起 来 ， 便 
得 到 了 “三 个 学 校 的 实验 员 来 了 ”这 样 的 词 序 。 显 而 易 见 ， 这 些 叶 之 间 是 
不 存在 文 配 关系 的 。 











第 四 ， 句 子 的 层次 : 树 形 图 T1 和 T2 的 层次 各 不 相同 ， 图 中 不 同 的 
文 配 关系 和 分 层 结 构 直 观 地 表示 了 这 种 不 同 。 








每 一 个 结 点 有 一 个 标记 ， 结 点 与 标记 之 间 的 这 种 对 应 关系 ， 可 以 用 标记 
AALER. 








PERAL 55 73: 


L (x) =y 





其 中 ，x 表 示 结 点 ，y 表 示 结 上 x 相应 的 标记 。 显 然 ， 在 图 7.14 的 树 形 图 
中 ， 一 个 结 点 只 对 应 于 一 个 标记 ， 因 此 ， 标 记 函 数 L 只 是 一 个 单 值 函 
数 ， 这 种 树 形 图 只 是 一 个 单 标记 树 形 图 。 在 单 标 记 树 形 图 中 ， 非 终极 标 
记 表 示 词 组 类 型 信息 和 词类 信息 ， 终 极 标记 表示 有 具体 的 单词 。 由 于 这 种 
单 标 记 树 形 图 的 每 一 个 结 点 只 有 一 个 标记 ， 它 表示 的 语言 信息 是 极为 有 
限 的 。 











由 此 可 见 ， 单 标记 树 形 图 可 以 给 我 们 提供 关于 句子 中 的 词 数 、 词 
形 、 词 序 、 层 次 等 句子 的 几何 值 ， 它 提供 的 几何 值 是 比较 全 面 的 ， 但 
是 ， 它 提供 的 代数 值 则 十 分 有 限 ， 我 们 只 能 从 中 了 解 到 词组 类 型 信息 和 
词类 信息 ， 而 不 能 了 解 到 句法 功能 、 语 义 关 系 、 逻 辑 关 系 等 重要 的 语言 
信息 。 这 是 单 标记 树 形 图 的 一 大 缺陷 。 


我 国 许多 语言 学 家 根据 汉语 的 特点 ， 提 出 了 汉语 语法 中 的 “层次 分 
析 法 ”。 这 种 层次 分 析 法 实质 上 就 是 用 单 标记 树 形 图 表示 句子 结构 的 一 
种 方法 。 不 过 ， 由 于 汉语 句子 中 各 个 成 分 的 句法 功能 十 分 重要 ， 在 这 种 
层次 分 析 法 中 ， 标 记 不 是 采用 NP、VP 等 “词组 类 型 "和 N、V 等 “词类 ” 范 
畴 ， 而 是 用 “句子 成 分 ”这样 的 范畴 ， 如 主语 、 谓 语 、 宾 语 、 定 语 、 状 
语 、 补 语 等 等 ， 从 而 把 句子 或 词组 的 结构 分 成 主 谓 结构 、 述 宾 结 构 、 述 
补 结构 、 偏 正 结 构 、 联 合 结构 等 等 ， 这 在 一 定 程 度 上 体现 了 汉语 句法 结 
构 的 特点 。 但 是 ， 尺 管 我 国语 言 学 家 作 了 这 样 的 改进 ， 汉 语 的 层次 分 析 
法 所 表示 的 有 关 句 子 的 代数 值 仍然 是 十 分 有 限 的 。 








这 种 单 标记 树 形 图 的 表示 方法 与 基 姆 斯 基 的 上 下 文 无关 短 语 结 构 语 
法 有 着 非常 密切 的 关系 。 
在 第 一 章 中 我 们 讲 过 ， 弄 姆 斯 基 把 上 下 文 无 天 的 短语 结构 语法 G 定 
义 为 一 个 四 元 组 
G- CVN, VT, S, P) 
其 中 ，VN 表 示 终 极 符号 ， 它 们 不 能 出 现在 句子 生成 的 终点 ，VT 表 示 终 
极 符号 ， 它 们 只 能 出 现在 句子 生成 的 终点 ， 它 们 就 是 具体 的 词 ，S 是 初 


台 符 号 ， 它 是 句子 生成 的 起 点 ;P 和 是 重 写 规 则 ， 如 果 G 是 短语 结构 语 
法 ， 则 了 的 形式 为 





A0 
这 个 公式 中 ，A 是 单独 的 非 终 极 符号 ，o 是 符号 串 ， 它 可 以 由 非 终极 符 
号 组 成 ， 也 可 以 由 终极 符号 组 成 ， 也 可 以 由 非 终极 符号 和 终极 符号 混合 
组 成 。 


为 了 叙述 方便 ， 我们 在 本 节 中 ， 把 上 下 文 无 关 短 语 结构 语法 简称 为 
短语 结构 语法 (Phrase Structure Grammar， 简 写 为 PSG) 。 


例如 ， 我 们 可 以 提出 这 样 的 短语 结构 语法 G= (VN, VT, S, P) 来 生 
成 汉语 句子 “三 个 学 校 的 实验 员 来 了 ”。 





VN = (S, NP, VP, CLP, AP, N, V, CARD, QTF, PART} 
VT = {学 校 ， 实 验 员 ， 三 ， 个， 来 ， 的 ， 了 } 
S = {S} 
P: 
. S = NP + VP 
. NP > CLP + NP 
. VP > V + PART 
. CLP 5 CARD + QTF 
. NP |= AP +N 
. AP > NP + PART 
. NP > AP + NP 


. NP >N 


o oo NO o FB OO N EB 


，N o {学校 ， 实 验 员 } 
. V > CK] 

. CARD > {=} 

. QTF > {0} 

. PART > { 的 ， 了 1》 


BRB B H 
w N BE o 





使 用 这 些 重 写 规则 ， 从 初始 符号 S 开 始 进行 生成 ， 可 以 得 出 如 下 的 
生成 过 程 ; 


S 所 用 规则 


NP + VP 1 

CLP + NP + VP 2 

CARD + QTF + NP + VP 4 

CARD + QTF + AP +N + VP 5 
CARD + QTF + NP + PART +N + VP 6 
CARD + QTF + N + PART +N + VP 8 
CARD + QTF + N + PART +N + V + PART 3 
= + QTF + N + PART +N + V + PART 11 
= + 4% +N + PART +N _ + V + PART 12 
= + 4A + SR + PART +N + V + PART 9 
= + 个 + 学 校 + HK +N + V + PART 13 
= + A + eR + WH + LHR + V + PART 9 
= + A + eR + 的 + 实验 员 + 来 + PART 10 
= + 个 + 学 校 + 的 + 实验 员 + 来 + 了 13 





这 样 的 生成 过 程 所 生成 的 句子 的 层次 结构 ， 与 树 形 图 T1 的 层次 结构 
相应 。 


我 们 也 可 以 按照 为 外 的 顺 友 来 使 用 重 写 规则 ， 得 到 线形 顺序 相同 而 
层次 不 同 的 力 一 个 句子 : 





S 所 用 规则 


NP + VP 1 

AP + NP + VP 7 

NP + PART + NP + VP 6 

CLP + NP + PART + NP + VP 2 

CARD + QTF + NP + PART + NP + VP 4 
CARD + QTF + N + PART + NP + VP 8 
CARD + QTF + N + PART + N + VP 8 
CARD + QTF + N + PART +N + V + PART 3 
= + QTF + N + PART +N + V + PART 11 
= + 个 +N + PART e N + V + PART 12 
= + 4 + KR + PART +N + V + PART 9 
= + ^h + ew + AY +N + V + PART 13 
三 + 个 + 学 校 + 的 + 实验 员 + V + PART 9 
三 + 个 + 学校 + 的 + 实验 员 + 来 + PART 10 
三 + 个 + 学校 + 的 + 实验 员 + 来 + 了 13 





按 这 样 的 生成 顺序 生成 的 句子 的 层次 结构 ， 与 树 形 图 IT2 的 层次 结构 
相应 。 





可 见 ， 按 照 不 同 的 生成 顺 夺 ， 可 以 生成 层次 结构 截然 不 同 而 线形 结 
构 完 全 相同 的 句子 来 。 


蛮 姆 斯 基 证 明 了， 短语 结 构 语 法 是 一 种 生成 自然 语言 的 形式 化 方 
法 。 这 种 方法 不 仅 能 揭示 出 句子 中 单词 的 线形 顺序 ， 而 且 还 能 揭示 出 句 
子 的 层次 结构 。 

















这 种 方法 从 理论 上 说 明了 ， 看 两 个 句子 是 否 具 有 同一 性 ， 不 仪 要 看 
组 成 这 两 个 句子 的 词 数 是 否 相 同 ， 词 形 是 否 相 同 ， 词 序 是 人 否 相 同 ， 而 且 
还 要 看 这 两 个 句子 的 层次 结构 是 否 相 同 。 因 此 ， 乔 姆 斯 基 的 短语 结构 语 
法 比 之 于 一 般 只 从 词 序 来 说 明 句 法 结构 的 语言 理论 要 深刻 得 多 。 我 们 可 
以 把 短语 结构 语法 看 成 是 层次 分 析 法 在 数学 上 的 解释 ， 在 这 个 意义 上 ， 
我 们 可 以 说 ， 短 语 结 构 语 法 是 层次 分 析 法 的 理论 基础 。 层 次 分 析 法 虽然 

















早 在 1947 年 就 由 美国 语言 学 家 威 尔 斯 (K.S. Wells) 提出 ， 但 是 ， 直 到 
20 世 纪 50 年 代 初 期 ， 乔 姆 斯 基 才 从 数学 上 严格 地 论证 了 这 种 语言 分 析 法 
的 原理 。 





我 们 在 第 一 章 曾经 指出 ， 短 语 结构 语法 与 单 标记 树 形 岁 之 间 存 在 着 
有 趣 的 对 应 关系 ， 我 们 在 这 里 进一步 举例 来 说 明 这 种 对 应 关系 。 





设 G= (VN,VT,S,P) 是 短语 结构 语法 ， 如 果 有 某 个 单 标记 树 形 图 满 
足 如 下 的 条 件 ， 那 么 ， 这 个 单 标 记 树 形 网 就 是 该 短语 结构 语法 G 的 推导 
树 : 

G 树 形 图 中 的 每 一 个 结 点 有 一 个 标记 ， 这 个 标记 或 者 是 语法 G 中 的 
非 终极 符号 ， 或 者 是 终极 符号 ， 也 就 是 说 ， 这 个 标记 是 集合 
(VNUVT) 中 的 符号 ; 





包 树 形 图 的 根 的 标记 是 语法 G 中 的 初始 符号 $S; 


GO 如 果树 形 图 的 结 点 n 至 少 有 一 个 异 于 其 本 身 的 后 裔 ， 并 有 标记 A， 
那么 ，A 必 定 是 语法 G 中 的 非 终极 符号 ， 即 AE (VN) ; 








由 如 果树 形 图 的 结 点 n1, n2, ..., nk 是 结 点 na 的 后 裔 ， 从 左 向 右 排 列 ， 
其 标记 分 别 为 AL1，A2，...，Ak， 也 就 是 树 形 图 中 有 图 7.16 这 样 的 子 树 形 
K, WA, A > A142.. Ak 必 定 是 语法 G 的 重 写 规则 P 中 的 一 条 规则 。 


Al NN Ak 


AI7.16 MIRA 








我 们 来 比较 图 7.14 和 图 7.15 中 的 树 形 图 与 我 们 刚才 所 示 的 短语 结构 
语法 G3 


在 图 7.14 所 示 的 单 标 记 树 形 图 T1 中 ， 根 的 标记 是 5， 标 记 为 $s， NP, 
VP, CLP, AP, N, V, CARD, QTF, PART 的 结 点 至 少 都 有 一 个 异 于 其 本 身 
的 后 裔 ， 所 以 ， 它 们 都 属于 VN， 是 非 终 极 符号 ; 结 点 S 的 直接 后 裔 是 
NP 和 VP， 所 以 ，$ > NP + VP 是 P 中 的 重 写 规 则 ， 结 点 VP 的 直接 后 裔 是 
V 和 PART, 所 以 ，VP > V + PART 是 P 中 的 重 写 规则 ， 结 点 NP 的 直接 后 
裔 是 CLP 和 NP, 所 以 ，NP = CLP + NP 是 P 中 的 重 写 规则 ， 等 等 。 由 此 可 
见 ， 图 7.14 中 的 单 标 记 树 形 图 T1， 满 足 短语 结构 语法 G 的 推导 树 所 需要 
的 各 个 条 件 ， 它 就 是 语法 G 的 推导 树 。 








同 理 ， 可 以 证 明 图 7.15 中 的 单 标 记 树 形 图 T2 也 是 短语 结构 语法 G 的 
推导 树 。 


由 此 可 以 看 出 ， 单 标记 树 形 图 与 作为 层次 分 析 法 基础 理论 的 短语 结 
构 语 法 有 着 对 应 关系 ， 所 以 ， 蛙 标记 树 形 图 与 层次 分 析 法 有 着 共 同 之 
处 。 这 种 单 标 记 树 形 图 ， 当 然 不 可 能 全 面 地 表示 句子 中 涉及 多 个 方面 
的 、 丰 寅 多彩 的 语言 信息 。 





短语 结构 语法 的 重 写 规则 形式 为 


A0 





其 中 ，o 是 符号 串 ， 它 可 以 由 两 个 符号 组 成 ， 也 可 以 由 一 个 符号 组 成 ， 
也 可 以 由 两 个 以 上 的 符号 组 成 。 可 见 ， 短 语 结构 语法 是 容许 多 分 的 ， 二 
分 只 不 过 是 多 分 的 一 种 特殊 情况 而 已 。 


在 语言 学 史上 ， 不 少 语言 学 家 指出 过 语法 结构 具有 二 分 的 特性 。 我 





国 著 名 语言 学 家 马 建 忠 在 《 马 氏 文通 》 中 提出 “两 端 两 语 说 ”， 指 

Hi: “ 盖 意 非 两 端 不 明 ， 而 句 非 两 语 不 成 ”。 美 国语 言 学 家 和 奈 达 CE. A. 
Nida) 在 《形态 学 》 一 书 中 指出 : “根据 经 验 ， 我 们 发 现 语言 结构 倾 癌 
Fz% Rl, SRS RAH BM CC. C. Fries) 在 《英语 结构 》 一 书 中 
指出 :“ 在 英语 里 ， 一 个 层次 通常 只 有 两 个 成 分 ， 当 然 ， 每 一 个 成 分 都 
可 以 由 好 几 个 单位 组 成 ， 不 过 在 同一 个 层次 上 ， 结 构 的 直接 成 分 通常 只 
有 两 个 ” 刁 。 




















乔 姆 斯 基 根 据 目 然 语言 结构 的 这 种 二 分 特性 ， 把 短语 结构 语法 的 重 
写 规则 形式 


改写 为 
A 5 BC 


Aa 


m PAN 


这 样 的 二 元 形式 ， 其 中 ，A，B，C 都 是 非 终 极 符号 ，a 是 终极 符号 。 前 一 
个 式 子 表示 非 终 极 符号 A 被 重 写 为 非 终极 符号 B 和 非 终极 符 号 C， 也 就 是 
A 被 二 分 为 B 和 C; 后 一 个 式 子 表示 非 终 极 符号 A 被 重 写 为 终极 符号 a， 
也 就 是 把 非 终 极 符号 重 写 为 终极 符号 。 所 以 ， 这 样 的 二 元 形式 反映 的 自 
然 语言 的 二 分 特性 。 这 是 乔 姆 斯 基 把 形式 语言 学 中 的 短语 结构 语法 应 用 
于 目 然 语言 时 所 采取 的 变通 方式 ， 并 没有 改变 短语 结构 语法 的 实质 。 具 
有 这 种 二 分 特性 的 重 写 规则 ， 在 形式 语言 理论 中 被 称 为 乔 姆 斯 基 范 式 
(Chomsky Normal Form) 。 








齐 姆 斯 基 并 且 从 理论 上 证 明了 ， 任 何 具 有 形式 为 A > @ 的 重 写 规则 
的 短语 结构 语法 ， 都 可 以 改写 为 具有 二 分 特性 的 乔 姆 斯 基 范 式 多 。 这 
告诉 我 们 ， 二 分 的 乔 姆 斯 基 范 式 与 多 分 的 短语 结构 语法 的 一 般 的 重 写 规 
则 ， 并 没有 什么 实质 性 的 区 别 ， 它 们 都 可 以 表示 语言 结构 的 层次 关系 。 








我 国 首先 采用 层次 分 析 法 的 语法 著作 是 丁 声 树 等 人 的 《语法 讲 
话 》。 该 书 指出 ， 汉 语 中 有 五 种 句法 结构 ， 即 主 谓 结构 、 补 充 结构 、 动 
Feet. WIE FFA, “并 列 结构 可 以 由 两 个 以 上 的 成 分 组 
成 ， 其 他 四 种 成 分 是 由 两 个 成 分 组 成 的 ”， 因 此 , “对 并 列 结构 采取 “多 
分 法 '"， 其 他 四 种 结构 采取 ‘二 分 法 '”。《 语 法 讲话 》 的 这 种 “二 分 
法 ”和 “多 分 法 ” 相 结 合 的 原则 ， 是 完全 符合 短语 结构 语法 重 写 规则 的 基 
本 原则 的 。 














可 是 ， 在 我 国语 言 学 界 ， 不 少 的 层次 分 析 法 论 者 主张 ， 层 次 分 析 法 
要 坚持 二 分 法 ， 不 能 搞 多 分 法 。 甚 至 有 人 提出 ， 多 分 法 就 是 中 心 词 分 析 
法 ， 二 分 法 就 是 层次 分 析 法 ， 把 二 分 法 与 多 分 法 对 立 起 来 “详细 论点 ， 
可 参看 高 更 生 《 汉 语 语法 问题 试 说 》， 山 东 人 人 民 出 版 社 出 版 ”。 这 样 的 
看 法 ， 在 理论 上 是 缺乏 根据 的 。 乔 姆 斯 基 在 形式 语言 理论 的 研究 中 ， 晤 
己 指出 了 二 分 法 与 多 分 法 在 本 质 上 的 联系 。 既 然 二 分 法 与 多 分 法 在 理论 
上 是 一 致 的， 我 们 为 什么 非 要 拘泥 于 二 分 法 ， 无 端 地 把 多 分 法 排斥 在 层 
次 分 析 法 的 范围 之 外 呢 ? 





汉语 句法 中 有 一 些 结构 采用 多 分 法 来 描述 更 为 合理 和 方便 。 例 
ap, “状语 + 谓语 + 宾语 ?这样 的 结构 ， 其 中 的 “状语 ?是 修饰 “谓语 + 宾 
语 ?的 呢 ， 还 是 只 修饰 “谓语 ”的 呢 ， 从 语感 上 是 不 好 判定 的 ， 在 采用 二 
分 法 来 分 析 时 就 难免 举 棋 不 定 。 这 时 ， 我 们 往往 会 得 出 两 个 结构 不 同 的 
树 形 图 。“ 我 们 认真 学 习 汉 语 ” 这 个 句子 ， 用 二 分 法 可 得 出 如 下 两 个 树 形 








图 T3 和 T4: 
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图 7.17 树 形 图 T3 





树 形 图 T3 中 ，PRON 表 示 代 词 ，ADJ 表 示 形 容 词 ， 汉 语 中 形容 词 作 
状语 是 普遍 现象 。 这 里 ， 形 容 词 ADJ 与 动词 V 组 成 动词 词组 VP， 在 VP 
中 ，ADJ 作 V 的 状语 ， 直 接 修 饰 V。 





树 形 图 T4 中 ，ADJ 不 直接 修饰 动词 w， 而 是 直接 修饰 由 V 和 N 组 成 的 
动词 词组 VP。 树 形 图 IT4 与 树 形 图 T3 的 结构 是 截然 不 同 的 。 但 是 ， 这 两 
种 结构 上 不 同 的 树 形 图 并 没有 导致 语义 上 的 差别 ， 不 论 分 析 为 哪 种 树 形 
图 ， 其 语义 都 是 一 样 的 。 因 此 ， 这 种 结构 上 的 差别 就 没有 多 大 的 作用 
了 ， 它 只 会 引起 分 析 时 的 举 棋 不 定 ， 使 分 析 者 进入 困境 。 





为 了 避免 分 析 时 举 棋 不 定 的 困境 ， 我 们 采用 多 分 法 ， 一 次 束 把 VP 
分 解 为 “ADJ+V+N”。 如 图 7.19 中 的 树 形 图 T5 所 示 。 
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图 7.19 BAITS 








树 形 图 IT5 采 用 多 分 法 ， 只 得 出 一 种 分 析 结 果 ， 树 形 图 的 层次 结构 与 它 的 
语义 解释 是 完全 一 致 的 。 由 此 可 以 看 出 采用 多 分 法 的 好 处 。 


在 树 形 图 T5 中 ， 我 们 使 用 了 多 分 形式 的 重 写 规则 


VP = ADJ+V+N 





JÉVP—UIUW AH. XXFEBUA IES BS LI, A EU d Te ET 
基 范 式 的 要 求 改写 为 二 分 形式 的 重 写 规则 。 


如 果 我 们 把 VP 5 ADJ + V + N 改 写 为 如 下 两 个 二 分 形式 的 重 写 规 
则 : 


VP > VP + NP 
VP = ADJ+ V 
那么 ， 我 们 便 可 以 得 到 树 形 图 T3。 


如 果 我 们 把 VP -ADJ+V+ NN 改写 为 如 下 的 两 个 二 分 形式 的 重 写 规 
则 : 


VP 5 ADJ * VP 
VP +> V+N 
那么 ， 我 们 便 可 以 得 到 树 形 图 T4。 


树 形 图 T5 不 是 一 个 二 又 树 ， 而 是 一 个 多 又 树 。 显 然 ， 多 又 树 比 二 又 
树 更 具有 一 般 性 ， 它 可 以 对 应 于 一 个 以 上 的 二 叉 树 。 这 说 明 多 又 树 与 二 
又 树 是 等 价 的 。 所 谓 “ 多 又 ?， 可 以 是 “三 又 ”"、“ 四 又 ?， 也 可 以 是 “二 
叉 ”、“ 一 义 ”。“ 多 了 义 ” 是 一 般 形式 ,“ 二 叉 ” 只 不 过 是 当 “ 多 又 ”的 “多 ”等 
于 “二 ”时 的 一 种 特殊 情况 罢了 。 











当然 ， 在 采用 多 又 树 来 描述 汉语 句子 时 ， 能 用 二 分 法 的 地 方 ， 我 们 
仍然 根据 传统 采用 二 分 法 。 但 是 ， 在 下 述 情况 下 ， 为 了 描述 的 方便 ， 我 
们 应 该 采用 多 分 法 : 





OD 状 谓 宾 式 ， 例 如 
认真 | 学 习 | 汉语 


DIREI: 例如 

我 们 | 请 | 他 | 吃饭 

@@ 双 宾语 : 例如 

给 | 第 第 | 一 本 书 

含有 多 项 并 列 修饰 语 的 偏 正 结构 :例如 
些 | 与 此 有 关 的 | 重要 | 问题 
OEFA: 例如 

衣服 | 洗 得 | 干净 

但 述 补 结构 不 作 谓 语 时 ， 述 语 与 补 语 之 间 采 用 二 分 法 . 
@ 框 形 结构 : 例如 

在 | 工作 | 中 








在 框 形 结构 中 ， 介 词 “在 "和 方位 词 “中 ”构成 一 个 框 子 “在 一 中 *， 中 
间 可 以 插入 名 词 词组 或 动词 词组 。 





在 这 些 情 况 下 ， 采 用 多 分 法 的 好 处 是 : 


第 一 ， 可 以 更 加 合理 地 解释 语言 现象 : 例如 ， 前 面 所 举 的 “认真 学 

习 汉 语 ” 之 例 中 ， 如 果 采 用 二 分 法 ， 很 难 决 定 是 分 析 为 “认真 | 学 习 汉 
语 ”， 还 是 分 析 为 "认真 学 习 | 汉语 >”， 采 用 多 分 法 分 析 为 "认真 | 学 习 | 汉 
语 ”， 便 可 摆脱 这 种 举 棋 不 定 的 困境 。 又 如 ， 在 “请 他 吃 
Wer, “他 ?” 作 “请 ?的 宾语 ， 又 同时 作 “ 吃 饭 ” 的 主语 ， 一 身 而 二 任 ， 如 果 
采用 二 分 法 ， 在 树 形 图 上 就 会 发 生 交 叉 现 象 ， 人 破坏 了 树 形 图 的 结构 ， 采 
用 多 分 法 分 析 为 “请 | 他 | 吃饭 ”， 便 不 会 发 生 交叉 现象 。 再 如 ， 在 “给 第 囊 
-本 书 ”* 中 ，“ 给 ”有 两 个 宾语 ， 采 用 多 分 法 来 分 析 ， 也 防止 了 树 形 图 中 
出 现 交 叉 现 象 。 





第 二 ， 可 以 在 编制 程序 时 减少 程序 量 : 一 些 长 句子 ， 如 果 采 用 二 分 


法 ， 层 次 会 多 到 十 层 八 展 ， 计 算 机 在 处 理 这样 的 多 层次 的 树 形 网 时 ， 需 
要 逐 层 进行 搜索 ， 程 序 的 编写 比较 复杂 ， 运 算 量 也 很 大 。 而 采用 多 分 
法 ， 大 大 地 减少 了 层次 ， 提 高 了 计算 机 处 理 语言 的 工作 效率 。 





第 三 ， 可 以 抓 住 句 子 的 主干 ， 把 句子 的 格局 清楚 地 显示 出 来 ， 便 于 
检查 和 研究 。 








可 见 ， 采 用 多 又 树 来 表示 句子 的 几何 值 ， 既 可 以 反映 出 句子 的 层次 
关系 ， 又 克服 了 二 又 树 的 在 干 缺点 。 多 叉 树 在 理论 上 符合 短语 结构 语法 
的 要 求 ， 在 实践 上 也 更 为 合理 ， 更 为 有 效 ， 更 为 方便 。 











然而 ， 多 叉 树 实质 上 只 是 二 叉 树 的 一 般 表 达 形 式 ， 并 没有 跳出 乔 姆 
斯 基 短 语 结构 语法 的 框架 ， 它 对 基于 乔 姆 斯 基 范 式 的 二 又 树 的 改进 ， 是 
完全 在 短语 结构 语法 的 重 写 规则 的 一 般 形 式 A > oo 的 容许 范围 内 进行 
的 。 所 以 ， 中 文 信息 MMT 模 型 中 第 一 个 字母 M (Multiple-branched) 和 
最 后 一 个 字母 T〈Tree) 所 表示 的 “多 又 树 形 图 *”， 实 质 上 仍然 是 一 种 短 
语 结 构 语 法 ， 它 并 没有 对 于 齐 姆 斯 其 的 短语 结构 语法 有 什么 重要 的 改 
进 。 

















中 文 信息 MMT 模 型 的 关键 之 处 是 第 二 个 字母 M， 即 Multiple- 
labeled， 也 就 是 “多 标记 ”。 “多 标记 ” 才 是 MMT 的 特色 和 要 害 之 所 在 。 








在 MMT 模 型 中 ， 我 们 提出 了 “多 标记 函数 ”(multiple-labeled 
function) 的 概念 。 








MMT 模 型 采用 多 标记 函数 来 代 蔡 短语 结构 语法 的 单 标记 函数 。 多 
标记 函数 LL 可 表示 如 下 : 








yl 
y2 


L(x )z 


yn 


EXIS, A ESI UPS] P s pix, AN DOT NET — 
个 标记 ， 而 是 对 应 于 寿 干 个 标记 {yl1, y2, .……， yn}。 在 同一 个 结 点 上 采用 
多 个 标记 ， 大 大 地 提高 了 树 形 图 的 标记 功能 ， 使 得 树 形 图 的 各 个 结 点 
上 上， 都 能 记录 尺 可 能 多 的 语法 语义 信息 。 











一 般 地 说 ， 在 一 个 短语 结构 语法 G= (VN, VT, S, P) 中 ， 生 成 式 P 
具有 A -，@% 的 形式 ， 其 中 ，A 是 单独 的 非 终 极 符号 ，w 是 在 VN U VT 上 
的 符号 串 ， 在 这 样 的 短语 结构 语法 中 ，A 的 标记 只 有 一 个 ， 与 这 样 的 短 
语 结构 语法 相对 应 的 树 形 图 ， 只 能 是 一 个 单 标 记 的 树 形 图 。 由 于 标记 是 
句子 中 语言 信息 的 记录 者 ， 在 单 标记 树 形 图 中 所 记录 的 语言 信息 十 分 简 
单 。 





这 样 的 短语 结构 语法 ， 它 的 分 析 能 力 有 限 ， 分 析 时 区 别 不 了 许多 貌 
似 相 同 而 实质 向 寞 的 结构 ， 它 的 生成 能 力 过 强 ， 第 第 会 产生 一 些 不 合 语 
法 的 句子 或 歧义 的 句子 ， 这 些 致 命 的 弱点 ， 虱 给 自然 语言 的 分 析 和 生 





成 ， 特 别 是 目 然 语言 的 自动 分 机 和 目 动 生成 带 来 极 大 的 困难 。 








由 于 短语 结构 语法 的 这 个 致命 弱点 ， 弄 姆 斯 基本 人 曾 宣称 ， 短 语 结 
构 语法 不 适合 于 以 数学 的 语言 来 描述 目 然 语言 的 句子 结构 ， 对 短语 结构 
语法 持 以 悲观 的 态度 。 





其 实 ， 乔 姆 斯 基 之 所 以 得 出 这 样 翡 观 的 结论 ， 是 因为 他 对 短语 结构 
语法 的 形式 化 作 了 不 必要 的 限制 ， 规 定 只 使 用 单 标记 ， 人 为 地 排除 了 对 
多 标记 的 使 用 。 如 果 采 用 多 标记 对 短语 结构 语法 进行 改进 ， 既 可 以 保留 
短语 结构 语法 的 各 种 优点 ， 又 可 以 提高 它 描述 目 然 语言 的 能 力 。 中 文 信 
上 忠 MMT 模 型 正 是 针对 乔 姆 斯 基 的 短语 结构 语法 的 这 一 致命 弱点 ， 明 确 
地 放弃 单 标 记 而 采用 多 标记 ， 大 胆 地 摆脱 了 乔 姆 斯 基 对 短语 结构 语法 所 
作 的 人 为 限制 ， 使 短语 结构 语法 获得 了 生命 力 。 

















由 于 运 今 为 止 的 许多 自然 语言 分 析 和 生成 系统 ， 痢 是 用 短语 结构 语 
法 来 描述 的 ， 而 且 ， 短 语 结构 语法 具有 简洁 明确 、 易 于 操作 等 优点 ， 给 
目 然 语 言 信息 处 理 的 研究 带 来 了 许多 方便 。 为 了 保持 短语 结构 语法 本 号 
的 各 种 长 处 ， 继 承 已 有 的 研究 成 果 ， 我 们 在 MMT 模 型 中 ， 并 没有 完全 
抛弃 短语 结构 语法 ， 我 们 明确 地 继续 保留 了 基于 短语 结构 语法 的 “多 又 
树 形 图 "*， 并 进一步 在 短语 结构 语法 的 基础 上 ， 大 胆 地 用 多 标记 来 代 蔡 
单 标 记 ， 用 多 标记 函数 来 代 丛 日 标记 函数 ， 从 而 提高 了 其 有 限 的 分 析 能 
力 ， 限 制 了 其 过 强 的 生成 能 力 ， 有 效 地 克服 了 短语 结构 语法 的 致命 弱 
扩 ， 保 持 了 短语 结构 语法 的 各 种 长 处 ， 使 得 MMT 模 型 能 够 充分 地 揭示 
出 句子 中 纺 藏 的 各 种 语法 信息 。 这 是 MMT 模 型 对 短语 结构 语法 改进 的 
最 为 关键 之 处 。 

















齐 姆 斯 基 用 单 标记 来 表示 树 形 图 中 结 点 上 所 负载 的 信息 ， 实 际 上 是 
把 这 种 信息 看 成 单元 性 的 、 不 可 分 割 的 、 没 有 内 部 结构 的 原子 














(atom) 。 这 样 的 原子 究竟 可 分 还 是 不 可 分 ? 这 是 一 个 重要 的 理论 问 

题 。 在 现代 物理 学 中 的 原子 结构 理论 的 局 及 之 下 ， 我 们 曾经 想 过 ， 能 不 
能 把 这 种 像 物理 学 中 的 原子 一 样 的 单元 性 的 单 标记 再 进一步 分 割 一 下 ， 
把 它 变 成 一 种 多 元 性 的 、 可 以 进一步 分 割 的 多 值 标记 呢 ?如 末 把 音标 记 
进一步 分 割 为 多 标记 ， 束 有 可 能 像 物理 学 中 把 原子 进一步 分 割 为 原子 核 
和 外 层 电 子 一 样 ， 使 我 们 对 于 语言 的 结构 获得 全 新 的 认识 。 而 且 ， 如 何 
运算 这 种 具有 结构 的 多 标记 ， 束 需要 研究 新 的 运算 方法 ， 这 也 许 会 导致 
计算 语言 学 对 传统 的 数据 运算 方法 提出 挑战 。 














我 们 在 第 一 章 中 说 过 ， 索 绪 尔 在 《普通 语言 学 教程 》《〈1916 年 第 一 
版 ) 中 早 束 指出 ，“ 语 言 可 以 说 是 一 种 只 有 复杂 项 的 代数 "。 他 强调 说 
明 ， 每 个 符号 扳 立 地 看 ， 可 以 认为 是 简单 项 ， 但 是 从 整体 来 看 ， 则 都 是 
BART. RAR, “语言 的 实际 情况 使 我 们 无 论 从 哪 一 方面 去 进行 
研究 ， 都 找 不 到 简单 的 东西 ， 随 时 随地 都 是 这 种 相互 制约 的 各 项 要 去 的 
复杂 平衡 。” 可 见 ， 索 绪 尔 早 束 提出 了 要 用 “复杂 项 ”描述 语言 的 观点 ， 
他 所 说 的 “复杂 项 *”， 就 是 我 们 现在 所 说 的 “多 标记 ”。 








然而 ， 索 绪 尔 关于 “复杂 项 ”的 里 越 思 想 并 没有 受到 当时 语言 学 界 的 
重视 ， 号 称 继承 了 索 绪 尔 语言 学 思想 的 美国 描写 语言 学 派 ， 在 他 们 提出 
的 “直接 成 分 分 析 法 ?中 ， 只 采用 简单 特征 来 描述 负 子 ， 而 在 乔 姆 斯 基 的 
短语 结构 语法 中 ， 则 更 是 明确 地 用 “ 单 标记 ?来 描述 句子 。 现 在 ， 当 我 们 
用 短语 结构 语法 对 目 然 语言 进行 计算 机 处 理 遇 到 重重 困难 的 时 候 ， 重 温 
索 绪 尔 天 于 “复杂 项 ”的 思想 ， 不 得 不 由 袁 地 佩服 这 位 学 术 前 辈 的 远见 绅 


Wo 








事实 上 ， 当 我 国 的 自然 语言 处 理 研 究 者 为 了 解决 在 用 短语 结构 语法 
来 描述 汉语 中 磁 到 的 种 种 问题 ， 正 是 从 索 绪 尔 关 于 “复杂 项 ”的 思想 中 得 
到 启示 ， 才 提出 了 “多 标记 ”的 概念 。 由 此 可 以 看 出 语言 学 的 基础 理论 对 





于 目 然 语言 处 理 研究 实践 的 指导 作用 。 





我 们 提出 “多 标记 ”的 概念 ， 除 了 受到 现代 物理 学 的 原子 结构 理论 的 
局 示 和 索 绪 尔 的 语言 学 理论 在 基本 原则 方面 的 引导 之 外 ， 还 有 一 个 更 重 
要 的 原因 ， 这 束 是 汉语 本 里 的 特点 决定 了 汉语 的 描述 离 不 开 “ 多 标记 ”。 
如 果 说 ， 在 英语 句子 的 计算 机 处 理 中 有 必要 采用 “多 标记 ”， 那么 ， 在 汉 
语句 子 的 计算 机 处 理 中 ， 采 用 这 种 “多 标记 ”的 必要 性 就 更 加 明显 了 。 这 
是 因 为 汉语 的 句子 不 能 只 使 用 词类 或 词组 类 型 等 特征 来 描述 ， 汉 语句 子 
各 个 成 分 的 词组 类 型 、 句 法 功能 、 语 义 关系 、 人 逻辑 关系 之 间 ， 存 在 着 极 
为 错综复杂 的 关系 ， 如 果 只 使 用 单 标 记 ， 就 无 法 区 分 各 种 歧义 现象 ， 达 
不 到 汉语 目 动 处 理 的 目的 。 














具体 地 说 : 





1. 汉语 句子 中 的 词组 类 型 (或 词类 ) 与 句法 功能 之 间 不 存在 简单 的 
一 一 对 应 关系 。 


用 短语 结构 语法 分 析 英 语 时 ， 对 于 树 形 图 中 的 每 一 个 结 点 ， 只 给 关 
于 词组 类 型 或 词类 的 特征 ， 如 S, NP, VP, Det, N, V 等 ， 这 一 般 不 会 磁 到 
很 大 的 困难 。 因 为 在 英语 中 ， 一 旦 把 Ss 分解 为 NP 和 VP， 那 么 ，NP 一 般 
是 主语 ，VP 一 般 是 谓语 ， 形 成 一 个 主 谓 结构 ;一 旦 把 VP 分 解 为 V 和 
NP， 那 么 ，V 一 般 是 述 语 ，NP 一 般 是 宾语 ， 形 成 一 个 述 宾 结构 ;句子 
组 成 成 分 的 词组 类 型 和 句法 功能 之 间 存 在 着 比较 简单 的 一 一 对 应 关系 。 
当 名 子 各 个 成 分 的 句法 功能 关系 确定 之 后 ， 也 就 不 难 进 一 步 确 定 这 些 成 
分 之 间 的 语义 关系 和 逻辑 关系 ， 从 而 实现 句子 的 句法 分 析 和 语义 分 析 。 











但 是 ， 在 汉语 中 ， 仅 仅 使 用 词组 类 型 (或 词类 ) 这 样 的 标记 是 远 远 
不 够 的 ， 因 为 汉语 句子 中 的 词组 类 型 (或 词类 ) 与 句法 功能 之 间 不 存在 


简单 的 一 一 对 应 关系 。 一 个 NP 加 上 一 个 VP， 可 以 构成 主 谓 结构 《如 “小 
王 /咳嗽 ”>) ， 但 也 可 以 构成 偏 正 结构 ， 如 “程序 /设计 ”， “程序 ”是 NP， 不 
作 主 语 而 作 定 语 , “设计 ”是 VP， 不 作 谓 语 而 作 中 心 语 。 类 似 的 例子 还 

有 “语言 /学 习 ”、“ 政 治 / 工 作 ”、“ 物 理 / 考 试 * 等 ， 词 组 类 型 都 是 NP + VP, 

可 是 ， 不 形成 主 谓 结构 ， 而 形成 偏 正 结构 。 在 这 种 情况 下 ， 如 果 只 用 词 
组 类 型 这 样 的 单 标 记 NP + VP 就 不 能 区 别 这 种 结构 在 句法 功能 上 的 此 
义 ， 而 必须 采用 多 标记 来 描述 ， 既 使 用 词组 类 型 标记 ， 又 使 用 句法 功能 
标记 。 在 汉语 描述 中 ， 有 必要 把 词组 类 型 与 词类 分 开 ， 我 们 采用 符号 k 
表示 词组 类 型 ， 仍 然 用 cat 表 示 词 类 。 











采用 多 标记 ， 对 于 形成 主 谓 结构 的 NP + VP， 可 描述 为 


dk» = NP eke = VP 

<cat> = N dd eel moy 

<> = SUB] «s[5» = PRED 
式 中 ，k 表 示 词 组 类 型 标记 ，NP 和 VP 都 是 k 这 个 标记 的 值 ，cat 表 示 词 类 
标记 ，N 和 V 都 是 cat 这 个 标记 的 值 ; sf 表示 人 句法 功能 标记 (syntactic 
function) ，SUBJ 和 PRED 是 sf 这 个 标记 的 值 ，SUBJ 表 示 主 语 ，PRED 表 
示 谓 语 。 这 里 的 NP 和 VP 都 是 由 一 个 单词 组 成 的 : NP 由 一 个 单词 N 组 
成 ，VP 由 一 个 单词 VV 组成。 事实 上 ， 它 们 都 具有 扩展 的 可 能 性 。 在 下 面 
的 叙述 中 ， 为 了 便于 讨论 ， 突 出 结构 中 的 重点 部 分 ， 我 们 一 般 不 扩展 
NP 和 VP， 它 们 扩展 之 后 产生 的 种 种 更 加 复杂 的 问题 ， 不 属于 这 里 讨论 
的 范围 。 








对 于 形成 偏 正 结构 的 NP + VP， 可 描述 为 


<k> = NF dk> = VP 

<cat> = N +| <cat> = V 

«sf» = MODF «sí» = HEAD 
式 中 ，MODF 表 示 定 语 ，HEAD 表 示 中 心 语 ， 它 们 是 sf 这 个 标记 的 值 。 


对 于 这 两 种 词组 类 型 相同 而 句法 功能 不 同 的 结构 ， 如 果 只 用 单 标记 
NP + VP 来 摘 述 ， 显 然 就 不 能 反映 它们 在 句法 功能 方面 的 差 寞 ， 必 须 同 
时 采用 词组 类 型 标记 和 句法 功能 标记 结合 而 成 的 多 标记 ， 才 能 准确 地 描 
述 它们 。 


汉语 中 一 个 VP 加 上 一 个 NP， 可 以 形成 述 宾 结构 (如 “学 习 / 英 

iB”) ， 但 也 可 以 形成 偏 正 结构 ， 如 “出 租 /汽车 ”中 , “EA? EVP, AME 
述 语 而 作 定语 ，“ 汽 车 ”是 NP， 不 作 “ 出 租 ” 的 宾语 而 作 被 < 出租” 修饰 的 中 
心 语 。 类 似 的 例子 还 有 “研究 /方法 ”、“ 学 习 / 制 度 ”、“ 开 放 / 政 策 ” 等 ， 词 
组 类 型 都 是 VP + NP， 可 是 ， 不 形成 述 宾 结 构 ， 而 形成 偏 正 结构 。 在 这 
种 情况 下 ， 如 果 采 用 单 标记 VP + NP 来 描述 ， 就 会 产生 句法 功能 歧义 ， 
而 必须 采用 多 标记 来 描述 ， 既 使 用 词组 类 型 标记 ， 又 使 用 句法 功能 标 
记 ， 才 能 把 这 种 下 义 区 别 开 来 。 





对 于 形成 述 宾 结 构 的 VP + NP， 可 描述 为 
k> = VP <k> = NP 
<ai> mV +| «cat» =N 
«sf» = PRED <si> = OBJE 


式 中 ，PRED 表 示 述 语 ，OBJE 表 示 宾 语 ， 它 们 都 是 句法 功能 标记 sf 的 
值 。 


对 于 形成 偏 正 结构 的 VP + NP， 描 述 为 
Eh = <k> = NP 
«ca = <cat> = N 
<sf> = MODF «sf» = HEAD 
式 中 ，MODF 表 示 定 语 ，HEAD 表 示 中 心 语 ， 它 们 是 句法 功能 标记 sf 的 


值 。 


对 于 这 两 种 词组 类 型 相同 而 句法 功能 不 同 的 结构 ， 如 果 只 用 单 标记 
VP + NP 来 描述 ， 显 然 也 是 不 充分 的 ， 必 须 采 用 多 标记 来 描述 


2. 汉语 句子 中 词组 类 型 (或 词类 ) 和 句法 功能 都 相同 的 成 分 ， 它 们 
与 名 中 其 他 成 分 的 语义 关系 还 可 能 不 同 ， 人 句法 功能 和 语义 关系 之 间 也 不 
是 简单 地 一 一 对 应 的 。 


同样 是 由 NP 和 VP 组 成 的 主 谓 结构 ， 其 中 作 主 语 的 NP 的 语义 可 以 是 
Ws Cun a 中 的 “小 王 >) ， 也 可 以 是 受 事 者 (如 “火车 票 / 买 
了 ”中 的 “火车 票 ?») ， 还 可 以 是 工具 《如 “左手 / 拿 纸 ， 右 手 / 拿 笔 ”中 
的 “左手 ”和 “右手 ”) 。 因 此 ， 在 汉语 句子 的 自动 处 理 中 ， 仪 仪 知 道 了 句 
子 的 组 成 成 分 的 词组 类 型 标记 和 句法 功能 标记 还 不 够 ， 为 了 区 分 歧义 ， 
还 再 加 上 语义 关系 特征 来 标记 ， 这 样 ， 标 记 就 更 为 复杂 了 。 














对 于 NP 的 语义 天 系 为 施 事 者 、 人 句法 功能 为 主语 的 NP + VP， 可 描述 
为 


<k> = NE šk> 2 vP 
<at> = N <saat> = V 
<sf> = SUBJ li «sf» - PRED 
«sem > = AGENT 


其 中 ，sem 表 示 语 义 关 系 标记 (semantic relation) , AGENTE Jti S 
者 ， 它 是 语义 关系 标记 sem 的 值 。 





对 于 NP 的 语义 关系 为 受 事 者 、 句 法 功能 为 主语 的 NP + VP， 可 描述 


为 
chu = NF ks. = VP 
tat > = IN <cat> = V 
十 
<sf> = SUBJ «sf» = PRED 


<sem > = PATIENT 
其 中 ，PATIENT 表 示 受 事 者 ， 它 是 语义 关系 标记 sem 的 值 。 

对 于 NP 的 语义 关系 为 工具 、 句 法 功能 为 主语 的 NP + VP， 可 描述 为 
人 | sk> = VP | 
<car> = N <ta> a y 
<ai> = SUBJ d «sf» - PRED 


«sem» - INST 
其 中 ，INST 表 示 工 具 ， 它 也 是 语义 关系 标记 sem 的 值 。 








同样 是 由 VP 和 NP 组 成 的 述 宾 结构 ， 其 中 ， 作 宾语 的 NP 的 语义 关系 
更 是 复杂 多 样 。 在 英语 中 ， 作 宾语 的 NP 一 般 表 示 述 语 VP 的 受 事 者 ， 但 


在 汉语 中 ， 作 宾语 的 NP 在 语义 关系 上 可 以 是 述 语 VP 的 受 事 者 、 范 围 、 
AA. ZR. CLE... 5. 


例如 ， 动 词 “ 考 ”后 面 加 上 不 同 的 NP 作 宾语 ， 这 些 宾语 NP 与 述 
语 “ 考 ”的 语义 关系 极为 复杂 。 在 “ 考 /学 生 ”* 中 ， 宾 语 “ 学 生 ”* 是 “ 考 ” 的 受 事 
者 ; 在 “ 考 / 数 学 ”中 ， 宾 语 “ 数 学 ”是 “ 考 ” 的 范围 ， 在 “ 考 / 北 大 ”中 ， 宾 
语 “ 北 大 ”是 “ 考 ” 的 目的 ;在 “ 考 / 研 究 生 * 中 ， 宾 语 “ 研 究 生 ”是 “ 考 ” 的 结 
(“ 考 / 研 究 生 * 在 语义 上 是 有 歧义 的 ， 在 一 定 的 环境 下 ，“ 研 究 生 ”可 以 
是 “ 考 ” 的 受 事 ， 是 被 考 的 人 ) ; 在 “ 考 /一 百 分 ” 中 ， 宾 语 “ 一 百 分 ” 也 
是 “ 考 ” 的 结果 。 因 此 ， 在 中 文句 子 的 自动 处 理 中 ， 仅 仅 有 了 词组 类 型 标 
记 和 句法 功能 标记 还 是 不 够 的 ， 还 必须 在 加 上 语义 关系 标记 。 











对 于 NP 的 语义 关系 为 受 事 者 、 句 法 功能 为 宾语 的 VP + NP， 可 描述 
为 
«k» z VP ek = NP 
es = Yy <cat> = N 
<sf> = PRED + «sf» - OBJE 
«sem > = PATIENT 
其 中 ，PATIENT 表 示 受 事 者 ， 它 是 语义 关系 标记 sem 的 值 。 


对 于 NP 的 语义 关系 为 范围 、 句 法 功能 为 宾语 的 VP + NP， 可 描述 为 


<k> <= NP 
<k> =< VP 

<cat> <= N 
tas = y + 

<sf> = OBJE 
<a> = PRED . 

«sem» - SCALE 


其 中 ，SCALE 表 示范 围 ， 它 是 语义 关系 标记 sem 的 值 。 
对 于 NP 的 语义 关系 为 目的 、 句 法 功能 为 宾语 的 VP + NP， 可 描述 为 
ck» = VP ek = NP 
Zeat> cV «cat» = N 
+ 
<st> = PRED «sf» = OBJE 


<sem> = GAOL 
其 中 ，GAOL 表 示 目 的 ， 它 是 语义 关系 标记 sem 的 值 。 

对 于 NP 的 语义 关系 为 结果 、 句 法 功能 为 宾语 的 VP + NP， 可 摘 述 为 
(pete \ paige \ 
«cat» = V <cat> = N 

+ 
[e = PRED [eo = OBJE 
«sem» = RESULT 
其 中 ，RESULT 表 示 结 果 ， 它 是 语义 关系 标记 sem 的 值 。 

第 三 、 汉 语 中 单词 所 固有 的 语法 标记 和 语义 标记 ， 对 于 判别 词组 结 

构 的 性 质 ， 往 往 有 很 大 的 参考 价值 ， 除 了 词组 类 型 这 样 的 单 标记 之 外 ， 


再 加 上 单词 回 有 的 语法 标记 和 语义 标记 ， 采 用 多 标记 来 描述 ， 就 可 以 判 
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在 VP + NP 这 样 的 词组 类 型 结构 中 ， 如 果 VP 的 语法 标记 是 不 及 物 动 
词 ， 那 么 ，VP 的 句法 功能 必定 为 定语 ，NP 的 句法 功能 必定 为 中 心 语 。 
例如 ,，“ 示 踪 程 序 ” 中 ,“ 示 踪 ” 为 VP， 是 一 个 不 及 物 动 词 ,，“ 程 序 ” 为 
NP， 因 为 不 及 物 动词 不 能 带 宾语 ， 因 此 ,“ 程 序 ” 不 能 为 “ 示 踩 ”的 宾语 ， 
这 时 “ 示 踪 ?是 定语 , “程序 ”是 中 心 语 。 这 种 情况 ， 可 以 表示 为 





2k> = <VPs ek» = NP 
«cat» - V +| «cat» = NI 
€ trans? = IV 


| <i> m VE | eks = NP | 
eat = y <cat> =N 


+ 
[| mes = i UU = HEAD) 
<sf> = MODF 


式 中 ，trans 表 示 动 词 的 及 物性 ，IV 表 示 该 动词 的 及 物性 为 不 及 物 ， 它 是 
标记 trans 的 一 个 值 。 


这 个 式 子 说 明 ， 在 VP + NP 中 ， 当 VP 的 及 物性 为 不 及 物 时 ，VP 的 句 
法 功能 为 定语 ，NP 的 句法 功能 为 中 心 语 。 


由 此 可 以 看 出 单词 固有 的 语法 标记 对 判断 词组 的 句法 功能 的 作用 。 


此 外 ， 单 词 固有 的 语义 标记 ， 对 于 判断 词组 的 句法 功能 也 有 很 大 的 
作用 。 


在 词组 类 型 结构 VP + NP 中 ， 当 VP 为 及 物 动词 ， 即 它 的 及 物性 为 及 
物 时 ， 词 组 的 句法 功能 标记 ， 婚 可 以 根据 NP 的 语法 标记 来 判别 。 一 般 
地 说 ， 当 VP 为 及 物 动 词 ，NP 为 抽象 名 词 ， 即 NP 的 回 有 语义 标记 为 “ 抽 
象 物 ”时 ， 或 者 当 NP 为 类 别名 词 ， 即 NP 的 固有 语义 标记 为 “类 别名 
称 ? 时 ，VP 的 句法 功能 为 定语 ，NP 的 句法 功能 为 中 心 语 。 例 如 , “训练 / 
目的 ”这 个 词组 中 ,“ 训 练 ”为 及 物 动 词 ,，“ 目 的 ”为 抽象 名 词 ， 即 “目的 ”的 
回 有 语义 为 “抽象 物 ”， 因 此 ， 可 判断 “训练 ”的 句法 功能 为 定语 ,，“ 目 





的 ”的 句法 功能 为 中 心 语 。 类 似 的 例子 还 有 :“ 生 产 / 宗 和 中、 培养 /目标 、 
发 展 /方向 、 管 理 / 体 制 、 进 攻 / 计 划 ? 等 。 又 如 , “管理 /人 员 ” 这 个 词组 
中 , “管理 ”为 及 物 动词 ,，“ 人 员 ” 为 类 别名 词 ， 即 “人 员 ” 的 固有 语义 为 “类 
别名 称 *?”， 因 此 ， 可 判断 “管理 ”为 修饰 语 ,，“ 人 员 ” 为 中 心 语 。 类 似 的 例 
子 还 有 :“ 采 购 / 人 员 、 进 修 /教师 、 领 导 / 干 部 、 评 论 /专家 、 半 新 /能 
主治 /医生 ”等 。 





前 一 种 情况 可 以 表示 为 


(<k> =V \ (<k> SNP \ 
pa zi voee = N F 
<ins> = TY <sem> = ABS 
dk% = VP ako = NP 
Sots = Y cat mod 
«trans» = TV s «sem» = ABS 


«sf» = MODF <sf> = HEAD 
后 一 种 情况 可 表示 为 


ek» = VP ks = NP 


< = ¥ +| <cat> = N — 
«trans» =TV «sem» = SORT 
<k> = VP ek > = NP 

«eat» = y «cat» = N 


cin > = TY i «sem» = SORT 

«sf» = MODF «sf» = HEAD 
式 中 ，TV 表 示 “ 及 物 ”， 它 是 标记 trans 的 一 个 值 ，ABS 表 示 “ 抽 象 物 ”， 它 
是 标记 sem 的 一 个 值 ，SORT 表 示 “ 类 别名 称 ”， 它 是 标记 sem 的 另 一 个 
值 。 它 们 是 单词 固有 的 语义 标记 ， 并 不 表示 单词 与 单词 之 间或 者 词组 与 
词组 之 间 的 语义 关系 ， 只 是 表示 单词 本 身 的 语义 特征 ， 这 显然 是 另 一 种 
类 型 的 语义 标记 。 











由 此 可 见 ， 在 汉语 句子 的 描述 中 ， 仅 仅 采 用 词类 或 词组 类 型 这 样 的 
单 标记 是 远 远 不 够 的 ， 必 须 在 加 上 句法 功能 标记 和 语义 关系 标记 ， 其 至 
还 要 加 上 单词 固有 的 语法 和 语义 标记 ， 才 有 可 能 比较 全 面 地 表达 句子 中 
包含 的 语言 信息 ， 从 而 也 才 有 可 能 成 功 地 进行 中 文 信息 处 理 。 这 就 是 为 
什么 我 们 要 在 汉语 句子 的 自动 处 理 中 ， 采 用 “多 标记 ”来 表达 语言 信息 在 
语言 学 上 的 根据 。 








以 上 我 们 只 是 对 这 个 问题 作 了 初步 的 论述 ， 而 语言 现象 往往 比 我 们 
想象 的 还 要 复杂 得 多 。 汉 语 中 施 事 者 和 受 事 者 有 时 很 难 分 辨 TEES m BS 
语 境 方面 的 背景 知识 才能 判别 。 例 如 ， 在 “小 王 / 理 及 ”这 个 NP + VP 中 ， 
如 果 “ 小 王 ” 是 理发 师 ， 那 么 ,“ 小 王 ” 一 般 应 该 是 施 事 者 ， 他 给 别人 理 
Rs 如 果 “ 小 王 ” 不 是 理发 师 ， 而 是 被 理 友 的 人 ， 那 么 ,“ 小 王 ” 束 是 受 事 
者 。“ 小 王 ” 究 竞 是 施 事 者 还 是 受 事 者 ， 是 由 “小 王 ” 的 身份 这 种 背景 知识 

















来 判别 的 ， 单 赁 语言 本 身 是 难以 分 辨 的 。 这 是 ， 描 述 汉语 句子 的 多 标 

记 ， 势 必 就 要 扩大 到 语 境 标记 的 范围 7 了。 这 类 例子 并 不 少见 。 在 “小 王 / 
E”, SNERT” SNEER ENP + VP 中 ,“ 小 王 ” 究 况 是 施 事 者 
还 是 受 事 者 ， 都 要 通过 语 境 标记 的 分 析 ， 才 能 作出 正确 的 判别 。 在 这 些 
情况 下 ， 就 需要 用 更 加 复杂 的 多 标记 来 描述 了 。 








我 们 在 上 面 描述 汉语 句子 时 ， 是 采用 大 和 干 个 标记 和 它们 的 值 来 进行 
描述 的 。 汉 语 的 多 标记 包含 硝 干 个 标记 ， 而 每 一 个 标记 又 包含 寿 干 个 
值 ， 这 种 由 标记 和 它们 的 值 构 成 的 描述 系统 ， 叫 做 “标记 / 值 ? 系 统 。 每 种 
语言 都 有 目 己 的 “标记 / 值 ? 系 统 。 语 言 不 同 ， 它 们 的 “标记 / 值 ? 系 统 也 不 
同 。 








根据 我 们 设计 FAJRA、GCAT 和 FCAT 等 机 器 翻译 系统 的 经 验 ， 我 
们 认为 ， 对 于 汉语 的 自动 分 析 和 自动 生成 来 说 ， 可 采用 如 下 的 “标记 / 
值 ” 系 统 。 


1. 词类 标记 和 它 的 值 : 


词类 是 描述 汉语 句子 的 多 标记 之 一 ， 记 为 cat。 








cat 的 可 取 如 下 的 值 : 名 词 、 处 所 词 、 方 位 词 、 时 间 词 、 区 别 词 、 数 
词 、 量 词 、 体 词性 代词 、 谓 词性 人 代词、 动词、 形容词、 副词、 介词 、 连 
词 、 助 词 、 语 气 词 、 拟 声 词 、 感 叹 词 。 


为 便于 计算 机 处 理 ， 我 们 把 标点 符号 与 公式 也 各 算 为 一 个 词类 ， 这 
样 一 来 : 汉语 共有 20 个 词类 ， 即 标记 cat 可 取 20 个 值 。 





每 个 标记 值 还 可 以 再 取 子 值 ， 即 进行 进一步 的 分 类 。 例 如 ， 汉 语 的 
形容 词 可 以 再 分 为 状态 形容 词 和 性 质 形容 词 两 个 次 类 ， 也 束 是 说 ， 形 容 
词 这 个 标记 值 还 可 以 再 取 状 态 形 容 词 和 性 质 形容 词 两 个 子 值 。 标 记 的 值 
及 其 子 值 ， 可 以 看 成 是 次 一 级 的 “标记 / 值 ? 偶 对 ， 也 惑 是 可 以 把 值 看 成 次 
一 级 “标记 / 值 ” 偶 对 中 的 标记 ， 把 该 值 的 子 值 看 成 次 一 级 “标记 / 值 ” 侦 对 
中 的 值 。 这 意味 着 当 存 在 子 值 时 ， 在 “标记 / 值 ? 偶 对 中 的 “ 值 ? 本 身 ， 也 可 
以 是 一 个 次 一 级 的 “标记 / 值 ” 偶 对 。 











2. 词组 类 型 标记 和 它 的 值 : 


词组 类 型 是 描述 汉语 的 另 一 个 标记 ， 记 为 k。 


k 的 值 可 取 : 动词 词组 、 名 词 词组 、 形 容 词 词组 、 数 量词 组 ， 共 4 


qu 


我 们 把 传统 语法 中 的 介词 词组 并 入 名 词 词组 ， 因 为 从 信息 处 理 的 角 
度 看 来 ， 介 词 词组 中 的 介词 ， 实际 上 只 是 它 后 面 的 名 词 词组 功能 的 一 种 
标志 ， 并 入 名 词 词 组 处 理 更 为 方便 。 


3. 单词 的 回 有 语义 标记 和 它 的 值 : 


单词 的 固有 语义 标记 ， 就 是 单词 的 语义 类 别 ， 它 表示 的 是 抓 立 的 单 
词 的 语义 ， 而 不 是 单词 与 单词 之 间 的 语义 关系 。 单 词 的 固有 语义 标记 记 
为 sem。 


sem 可 取 如 下 的 值 和 子 值 : 

WAR: 其 子 值 为 生物 、 无 生物 、 机 关 组 织 、 类 别名 称 。 
Wit: 其 子 值 为 设备 、 产 品 、 原 材料 。 

现象 .其 子 值 为 自然 现象 ”人工 现象 、 社 会 现象 、 力 能 现象 。 
时 空 ， 其 子 值 为 时 间 、 空 间 。 

测度 其 子 值 为 数量 、 单 位 、 标 准 。 

HA: 其 子 值 为 学 问 、 概 念 、 符 号 。 

属性 : 其 子 值 为 性 质 、 形 状 、 关 系 、 结 构 。 

行动 : 其 子 值 为 行为 、 动 作 、 操 作 。 





这 些 固有 语义 标记 部 记录 在 词典 中 孤立 的 单词 上 面 ， 成 为 单词 本 二 
回 有 的 语义 属性 。 


4. 早 词 的 国有 语法 标记 和 它 的 值 : 








孤立 的 单词 也 具有 语法 标记 。 例 如 ， 不 同 的 名 词 要 求 不 同 的 量词 ， 
因此 ， 带 量词 标记 就 是 名 词 的 固有 语法 标记 ; 不 同 的 动词 及 物性 不 同 ， 
因此 ， 及 物性 就 是 动词 的 固有 语法 标记 ; 不 同 的 动词 的 “ 价 ”(valence) 
也 不 尽 相 同 ， 因 此 ,，“ 价 ”就 是 动词 的 男 一 个 固有 语法 标记 ,，“ 价 ”反映 了 
动词 对 其 前 后 词语 的 要 求 ， 但 它 是 动词 本 身 的 属性 ， 因 此 ， 我 们 把 它 看 











成 是 动词 的 固有 语法 标记 。 
单词 的 固有 语法 特 标 记 为 grm。 


语法 标记 的 值 也 可 以 具有 子 值 ， 这 时 ， 我 们 可 以 把 值 和 它 的 子 值 作 
为 “标记 / 值 ” 侦 对 来 处 理 。 例 如 ， 动 词 的 固有 语法 标记 的 及 物性 这 个 值 具 
有 两 个 子 值 : “及 物 ” 和 “不 及 物 ”， 我 们 可 把 及 物性 看 成 一 标记 ， 把 及 物 
和 不 及 物 这 两 个 子 值 看 成 这 个 标记 的 值 。 前 面 我 们 用 过 的 trans=TV 和 
trans=IV 等 表示 法 ， 正 是 这 样 来 处 理 的 。 


“ 价 ” 也 可 取 子 值 ， 一 价 、 二 价 、 三 价 。 一 价 动词 只 能 有 一 个 主语 ， 


如 “咳嗽 ”;， 二 价 动词 可 有 一 个 主语 和 一 个 宾语 ， 如 “ 写 ”; 三 价 动词 可 有 


一 个 主语 、 一 个 直接 宾语 、 一 个 间接 宾语 ， 如 “给 ”。 





5. 可 法 功能 标记 : 


由 于 现代 汉语 中 的 词组 类 型 和 人 句法 功能 之 间 没 有 明确 的 一 一 对 应 关 
系 ， 它 们 之 间 的 关系 极为 错综复杂 ， 在 汉语 句子 的 目 动 分 机 中 ， 必 须 注 
意 句法 功能 标记 ， 这 些 标 记 都 是 在 句子 的 自动 分 析 中 产生 的 ， 而 不 是 单 
词 或 词组 本 映 固 有 的 。 汉 语 中 人 句子 组 成 成 分 的 句法 功能 标记 记 为 sf。 





sf 可 取 如 下 的 值 ， 主 语 、 谓 语 、 宾 语 、 定 语 、 状 语 、 补 语 、 述 语 、 
中 心 语 。 





注意 :“ 中 心 语 ? 这 个 值 是 非常 重要 的 ， 因 为 在 语言 的 结构 中 ， 除 了 
并 列 结构 之 外 ， 组 成 结构 的 成 分 总 是 有 主 次 之 分 ， 我 们 使 用 “中 心 语 ” 这 
个 值 ， 强 调 结 构 中 的 “核心 ”与 “ 非 核 心 ”的 区 别 ， 弥 补 了 直接 成 分 分 析 法 








的 不 足 。 


sf 的 值 可 以 有 子 值 。 例 如 ， 宾 语 这 个 值 可 有 直接 宾语 和 间接 宾语 两 
个 子 值 。 


6. 语义 关系 标记 : 





语义 关系 标记 也 不 是 单词 本 映 回 有 的 ， 而 是 在 计算 机 自动 进行 句法 
语义 分 析 的 过 程 中 通过 运算 得 出 的 。 孤 立 的 单词 谈 不 上 话 义 关系 ， 只 有 
两 个 或 两 个 以 上 的 单词 或 词组 才 会 产生 语义 关系 。 为 了 简单 起 见 ， 我 们 
把 语义 关系 标记 也 记 为 seam。 








sem 可 取 以 下 的 值 : 施 事 、 受 事 、 与 事 、 关 涉 、 时 刻 、 时 段 、 时 间 
起 点 、 时 间 终 点 、 空 间 点 、 空 间 段 、 空 间 起 点 、 空 间 终点 、 初 态 、 琳 
D EEL AR IR AA HE RA EH AR wih e 
题 、 修 饰 、 比 较 、 伴 随 、 判 断 、 陈 述 、 附 加 等 。 











sem 的 各 个 值 还 可 以 分 得 更 细 ， 这 样 每 个 值 就 还 可 以 再 取 子 值 。 


如 果 把 汉语 的 句子 看 成 一 个 多 辑 命 题 ， 那 么 ， 在 逻辑 命题 的 谓词 与 
它 的 各 个 论 元 Cargument) 之 间 还 存在 着 逻 辑 关 系 。 由 于 逻辑 命题 的 各 
个 论 元 在 句子 中 是 由 单词 或 词组 来 充当 的 ， 因 而 在 句子 中 ， 单 词 与 单词 
或 者 词组 与 词组 之 间 还 存在 着 逻辑 关系 。 这 种 关系 就 是 乔 姆 斯 基 所 说 





的 “ 题 元 关系 ”(0 relation) . WKAR. 


Ire A F: 





论 元 0 Cargo) : 它 是 句子 的 深层 主语 








论 元 1 (argl) : 它 是 句子 的 深层 直接 宾语 





论 元 2 (arg2) : 它 是 句子 的 深层 间接 宾语 
逻辑 关系 标记 的 值 一 般 没 有 子 值 。 


每 一 个 论 元 均 起 一 个 题 元 作用 ， 而 且 只 能 起 一 个 题 元 作用 ;， 每 个 题 
元 作用 均 由 一 个 论 元 来 充当 ， 而 且 只 能 由 一 个 论 元 来 充当 。 因 此 ， 可 以 
根据 论 元 的 情况 来 检验 所 处 理 的 句子 在 逻辑 关系 的 分 析 上 是 否 正确 ， 并 
且 揭示 出 整个 句子 的 馆 辑 结构 。 








我 们 这 里 列 出 的 汉语 的 “标记 / 值 ? 系 统 ， 还 不 十 分 完善 ， 有 行 在 实践 
中 进一步 补充 。 


在 上 面 所 列举 的 各 类 标记 中 ， 词 类 特征 、 单 词 的 固有 语义 标记 、 单 
词 的 固有 语法 标记 都 是 可 以 在 词典 中 独立 地 给 出 来 的 ， 它 们 是 单词 本 妨 
所 固有 的 标记 ， 我 们 把 它们 叫做 静态 标记 Cstatic labels) 。 而 词组 类 型 
标记 、 句 法 功能 标记 、 语 义 关 系 标 记 、 风 辑 关系 标记 并 不 能 表示 单词 本 
号 的 固有 特性 ， 它 们 是 单词 与 单词 之 间 发 生 联系 时 才 产生 出 来 并 同时 被 
记录 在 树 形 图 结 点 上 的 标记 ， 我 们 把 它们 叫做 动态 标记 (dynamic 
labels) 。 这 就 是 MMT 模 型 中 的 “ 双 态 理论 ”(bi-states theory) 。 





在 自动 句法 语义 分 析 中 ， 静 态 标 记 是 计算 机 进行 运算 的 基础 ， 计 算 
机 依赖 于 这 些 预 匈 在 词典 中 给 出 的 静态 标记 ， 通 过 有 分 步 运算 ， 逐 渐 算 


出 各 种 动态 标记 ， 从 而 逐步 弄 清楚 汉语 句子 中 各 个 语言 成 分 之 间 的 关 
系 ， 达 到 自动 句法 语义 分 析 的 目的 。 











在 各 种 动态 标记 中 ， 词 组 类 型 标记 是 最 容易 运算 求 出 的 。 一 般 根 据 
树 形 图 中 茶 个 结 皮 的 直接 后 诊 的 词类 标记 、 单 词 的 固有 语法 标记 及 蛙 词 
的 固有 语义 标记 等 静态 标记 ， 就 不 难 推算 出 该 结 皮 的 词组 类 型 标记 。 句 
法 功能 标记 则 要 通过 更 广泛 的 上 下 文 信息 才能 推算 求 出 ， 而 语义 关系 标 
记 及 逻辑 关系 标记 则 是 最 难 求 出 的 ， 往 往 不 是 一 步 求 出 ， 而 是 要 通过 许 
步 的 演绎 和 推理 ， 才 有 可 能 推算 出 来 。 一 个 汉语 上 自动 分 析 和 语义 分 析 
系统 的 质量 的 高 低 ， 在 很 大 的 程度 上 取决 于 它 所 推算 出 的 句法 功能 标 
记 、 语 义 关 系 标 记 和 逻辑 关系 标记 的 多 寡 和 正确 与 个 。 因 此 ， 如 何 根据 
各 种 静态 标记 推算 出 动态 标记 ， 便 是 双 态 理论 重 中 之 重 的 问题 ， 也 是 汉 
语 自动 处 理 的 关键 所 在 。 汉 语 语法 和 语义 的 研究 应 该 为 这 方面 的 工作 提 
供出 有 效 的 规则 ， 在 这 个 领域 中 ， 非 党 需要 语言 学 家 和 计算 机 专家 的 通 
力 协作 。 





























一 般 地 说 ， 汉 语句 子 的 目 动 分 机 ， 应 该 包括 如 下 步 又 : 
1. 对 输入 的 汉语 句子 进行 切 分 ， 确 定单 词 与 单词 之 间 的 界线 。 
2. 在 词典 中 碍 出 句子 中 各 个 单词 的 静态 标记 。 


3. 根据 语法 规则 和 语义 规则 ， 检 碍 这 些 静态 标记 的 相 容 性 ， 把 静态 
标记 相 容 的 单词 结合 成 词组 ， 并 求 出 词组 类 型 标记 。 


4. 根据 语法 规则 和 语义 规则 ， 由 静态 标记 和 词组 类 型 标记 出 友 ， 计 
算出 句法 功能 标记 ， 并 进一步 计算 出 语义 关系 标记 和 逻辑 关系 标记 。 


在 检查 静态 标记 的 相 容 性 以 及 由 表态 标记 计算 动态 标记 时 ， 如 宁 两 





个 标记 不 相 容 ， 则 不 能 进行 运算 ， 运算 失 败 ， 如 果 两 个 标记 相 容 ， 则 根 
据 有 关 的 语法 和 语义 规则 进行 运算 。 由 于 在 标记 不 相 冲 突 时 就 可 以 对 标 
记 进行 运算 ， 运 算 所 得 出 的 标记 信息 必然 不 断 增 多 ， 句 子 各 个 组 成 成 分 
所 包含 的 标记 越 来 越 丰 富 ， 最 后 求 出 的 各 种 标记 就 能 比较 全 面 地 反映 汉 
语句 子 的 性 质 。 








汉语 的 上 自动 生成 过 程 与 此 相反 。 在 从 外 语 到 汉语 的 机 融 翻 译 中 ， 一 
般 是 根据 外 语 分 析 得 到 的 有 关 句 法 功能 、 语 义 关 系 、 逻 辑 关 系 的 标记 ， 
并 根据 外 汉 双 语言 机 器 词典 中 提供 的 有 关 汉 语 单词 的 豆 态 标记 ， 进 行 汉 
语词 序 的 调整 及 必要 的 词性 变化 〈 如 动词 和 形容 词 的 重 登 式 变化 ) ， 最 
后 产生 出 合格 的 汉语 句子 。 





我 们 在 机 器 翻译 试验 中 使 用 了 这 样 的 方法 ， 得 到 了 较 好 的 结 


中 文 信息 MMT 模 型 的 要 点 可 以 总 结 如 下 : 





1. 一 个 多 广 多 标记 树 形 图 具有 而 且 仅 仅 具 有 一 个 根 结 反 ; 


2. 如 果 根 结 点 上 共有 子 结 护 ， 则 每 一 个 子 结 扣 部 是 一 个 多 又 多 标记 树 
ARE 





3. 多 又 多 标记 树 形 图 的 任意 一 个 结 点 都 有 0 个 至 n 个 子 结 点 ， 如 有 果 一 
个 结 点 的 子 结 反 数 为 0， 则 该 结 扣 为 终极 结 点 〈“ 即 叶子 )， 如 果 一 个 结 
扩 的 子 结 反 数 不 为 0， 则 该 结 点 为 非 终 极 结 点 ， 二 了 叉 树 只 是 多 又 树 当 n=2 
时 的 一 种 特殊 情况 。 








4. 多 又 多 标记 树 形 图 的 每 一 个 结 点 上 的 标记 都 是 多 个 标记 的 集合 。 


根据 MMT 模 型 ， 本 书 作 者 有 效 地 建立 了 汉 一 法 / 英 / 日 / 俄 / 德 多 语言 
机 器 翻译 系统 FAJRA、 德 汉 机 器 翻译 系统 GCAT 和 法 汉 机 器 翻译 系统 


FCAT。 哈 尔 滨 工业 大 学 计算 机 系 玉 用 MMT 模 型 ， 研 制 了 CEMT-III 汉 

英 机 器 翻译 系统 ， 该 系统 词典 容量 4 万 条 ， 各 类 规则 3 600 条 ， 对 于 封闭 
语 料 ， 译 文 准 确 率 为 78%， 对 于 开放 语 料 ， 译 文 准 确 率 为 67%， 翻 译 速 
度 为 每 小 时 3500 汉 字 ( 在 IBM386/33 上 运行 )， 该 系统 于 1993 年 5 月 通过 

了 技术 鉴定 。 实 践 证 明 ，MMT 模 型 是 一 个 行 之 有 效 的 自然 语言 处 理 模 

型 。 





第 五 人 ”多 标记 集合 与 合 一 运算 


在 20 世 纪 80 年 代 初 期 ， 我 们 对 于 多 标记 集合 是 采用 集合 论 中 
的 < 并 、 补 、 交 ”等 的 运算 方法 ， 这 种 方法 是 比较 传统 的 经 典 的 运算 方 
法 。 近 年 来 ， 国 外 上 自然 语言 处 理 的 研究 有 了 长 足 的 进展 ， 出 现 了 各 种 基 
于 “ 合 一 ”的 运算 方法 ， 根 据 上 自然 语言 处 理 的 特点 ， 对 传统 的 经 典 的 集合 
运算 方法 作 了 改进 ， 在 这 种 情况 下 ， 我 们 也 有 必要 对 于 MMT 模 型 的 运 
算 方法 加 以 改进 ， 以 适应 当前 自然 语言 处 理发 展 的 要 求 。 

















正如 我 们 在 20 世 纪 80 年 代 初 期 所 说 的 那样 ， 当 时 我 们 提出 MMT 模 
型 ， 是 为 了 克服 短语 结构 语法 的 缺陷， 使 之 适合 于 自然 语言 计算 机 处 理 
的 要 求 。 











就 在 我 们 提出 中 文 信息 MMT 模 型 的 同时 ， 国 外 一 些 计算 语言 学 家 
也 看 到 了 短语 结构 语法 的 局 限 性 ， 纷 纷 提出 各 种 手段 来 提高 短语 结构 语 
法 有 限 的 分 析 能 力 ， 限 制 其 过 强 的 生成 能 力 。 





20 世 纪 80 年 代 前 后 ， 在 美国 首先 从 伍兹 CW. Woods) 的 扩充 转移 
网 络 开 始 ， 在 布 列 斯 南 关 于 面向 词汇 的 转换 语言 学 思想 的 激励 之 下 ， 卡 
普兰 和 布 列 斯 南 一 起 ， 于 1983 年 提出 了 词汇 功能 语法 ， 马 丁 : 凯 依 于 
1983 年 提出 了 “ 合 一 语法 ”， 于 1985 年 提出 了 “功能 合 一 语法 ”。 他 们 都 认 
为 ， 自 然 语 言 是 一 个 效率 极 高 同时 又 能 够 精确 地 表达 各 种 复杂 意念 的 信 
恩 系 统 ， 仅 只 用 弄 姆 斯 基 的 短语 结构 语法 中 的 单一 的 句法 范畴 不 可 能 
分 地 描述 自然 语言 的 句子 ， 而 必须 使 用 “复杂 特征 ”来 描述 ， 因 而 这 些 语 
法 都 采用 了 “复杂 特征 结构 ”(complex feature structures) ， 并 采用 “ 合 
一 ”(unification〉 来 对 复杂 特征 进行 运算 。 











法 国学 者 科 尔 迈 洛 埃 CA. Colmerauer) 于 1970 年 独立 地 研制 了 Q- 系 
统 (Q-system) ， 义 于 1978 年 提出 了 “变形 语法 ”(Metamorphosis 
Grammar) ， 把 它们 作为 自然 语言 处 理 的 工具 。 在 逻辑 程序 设计 方面 ， 
佩 瑞 拉 和 瓦楞 CD. Warren) 于 1980 年 提出 了 定子 句 语法 ， 这 种 语法 是 
在 科 尔 迈 洛 埃 早 期 形式 语法 的 研究 以 及 程序 设计 语言 Prolog 的 工作 基础 
上 研制 而 成 的 。 在 独立 的 逻辑 程序 设计 工作 中 ， 这 种 定子 句 语 法 已 经 成 
为 许多 立足 于 “复杂 特征 ”的 “ 合 一 ”运算 的 形式 化 方法 的 基础 ， 例 
如 ，“ 移 位 ”(extraposition ) ~ “8” (slot) 和 “间隔 语法 ”(Gapping 
Grammar) 等 等 。 这 些 工 作 也 都 是 离 不 开 * 复 杂 特 征 ?的 运算 的 。 








HA WA CE. Klein) 和 普 鲁 姆 等 人 于 1978 年 提出 了 "广义 短 
语 结构 语法 ”， 这 种 语法 以 短语 结构 语法 作为 基础 ， 采 用 “特征 / 值 系 统 
来 描述 句子 ， 在 这 种 “特征 / 值 ? 系 统 中 ， 既 包括 简单 特征 ， 也 包括 复杂 特 
征 ， 这 就 在 很 大 程度 上， 增强 了 短语 结构 语法 对 自然 语言 的 解释 力 ， 改 
善 了 它 的 功能 。 在 他 们 最 近 的 研究 工作 中 ， 也 引进 了 “ 合 一 ”来 进行 复杂 
特征 的 运算 。 珀 拉 德 于 1984 年 在 他 的 博士 论文 中 ， 提 出 了 “中 心 词语 
法 ”其 理论 基础 之 一 ， 就 是 “广义 短语 结构 语法 ”中 的 “特征 / 值 ” 系 统 。 
1985 年 ， 珀 拉 德 和 他 的 同事 们 又 提出 了 “中 心 词 驱动 的 短语 结构 语法 ”， 
这 种 语法 是 “广义 短语 结构 语法 ”和 “中 心 词语 法 ”的 进一步 发 展 ， 也 采用 
了 “复杂 特征 "和 “ 合 一 ”运算 。 





作者 在 1981 年 提出 的 中 文 信息 MMT 模 型 中 ， 明 确 地 采用 “多 标 
记 ”， 这 种 “多 标记 ”实质 上 就 是 “ 复 末 特征 ”， 与 同一 个 时 期 上 述 欧美 学 
者 提出 的 “复杂 特征 ?名 异 而 实 同 。 作 者 用 "多 标记 ?来 代 丛 “ 单 标 记 ”， 实 
质 上 也 就 是 用 “ 复 茶 特征 ”来 代 亚 “单一 特征 *"， 其 思路 与 本 章 第 一 市 中 用 
复杂 特征 代 丛 单一 特征 的 思路 是 完全 一 致 的 。 











纵 观 20 世 纪 80 年 代 前 后 自然 语言 处 理 研 究 的 发 展 历 史 可 以 看 出 ， 作 





者 在 1981 年 提出 的 MMT 模 型 ， 是 世界 各 国学 者 对 弄 姆 斯 基 的 短语 结构 
语法 进行 改进 的 一 个 重要 方面 和 不 可 分 割 的 组 成 部 分 ，MMT 模 型 是 20 
世纪 80 年 代 较 早 提出 的 一 个 旨 在 改进 短语 结构 语法 的 形式 化 模型 。 当 时 
作者 正在 法 国 格 勒 诡 布 尔 大 学 应 用 数学 研究 所 上 自动 翻译 中 心 师 从 国际 计 
算 语 言 学 委员 会 主席 沃 古 瓦 教授 研制 多 语言 自动 翻译 系统 FAJRA， 当 作 
者 同 沃 古 瓦 教授 指出 了 汉语 分 析 中 的 种 种 困难 而 必须 采用 多 标记 来 处 理 
时 ， 添 十 瓦 教授 兴奋 地 赞赏 这 样 的 想法 ， 并 且 杀 上 自 把 这 个 模型 定名 

为 “中 文 信息 MMT 模 型 ”(Multiple-branched, multiple-labelled tree model 
for Chinese information processing) ， 在 沃 十 瓦 教授 的 指导 下 ， 作 者 利用 
该 大 学 的 ARIANE-78 自 动 翻译 软件 ， 在 计算 机 上 实现 了 “中 文 信息 MMT 
模型 >”， 成 功 地 把 大 和 干 篇 中 文科 技 短文 分 别 翻 译 成 法 语 、 瑞 语 、 日 语 、 
德语 、 俄 语 等 五 种 语言 。1982 年 在 布拉格 举行 的 国际 计算 语言 学 会 议 
上 ， 担 任 大 会 主席 的 沃 古 瓦 教授 在 发 言 中 ， 特 别提 到 了 作者 在 格 勒 诺 布 
尔 大 学 采用 MMT 模 型 研制 的 多 语言 自动 翻译 系统 ， 给 予 热情 的 赞赏 。 
MMT 模 型 的 提出 ， 说 明 我 国 自然 语言 处 理工 作者 很 早 就 认识 到 了 乔 姆 
斯 基 短 语 结构 语法 的 局 限 性 ， 并 且 找 到 了 改进 它 的 有 效 方法 一 一 “多 标 
记 函 数 ”。 在 20 世 纪 80 年 代 初 期 ， 我 国学 者 在 这 方面 的 研究 是 处 于 前 沿 
地 位 的 。“ 多 标记 ”的 概念 也 就 是 “复杂 特征 ”的 概念 ， 它 是 80 年 代 上 自然 语 
言 处 理 的 形式 化 方法 的 一 个 有 力 工 具 。20 世 纪 80 年 代 以 来 的 自然 语言 处 
， 在 关键 性 的 地 方 都 使 用 了 基于 “复杂 特征 ”的 “ 合 一 ”运算 方法 。 可 以 
，“ 复 杂 特 征 ” 的 概念 ， 是 当代 目 然 语言 处 理 研究 中 的 一 个 关键 性 概 
它 反 映 了 计算 机 时 代 人 们 对 于 语言 现象 认识 的 进一步 深化 。 
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参照 天 于“ 合 一 ”运算 的 理论 和 方法 ， 我 们 非常 有 必要 对 于 MMT 模 
型 进行 进一步 的 改进 ， 特 别 应 该 把 “ 合 一 ”运算 方法 引入 MMT 模 型 。 


首先 ， 我 们 参照 功能 合 一 语法 ， 采 用 功能 描述 (Functional 





Description， 人 简称 FD) 来 表示 多 标记 集合 Cmultiplt-label set) . 


功能 描述 FD 由 一 组 描述 元 (descriptors) 组 成 ， 而 每 一 个 描述 元 则 
是 一 个 成 分 集 (constituent. set) 、 一 个 模式 Cpattem) 或 一 个 带 值 的 属 
性 (attribute〉， 其 中 最 主要 的 是 “属性 / 值 ” 侦 对 。 在 功能 描述 FD 中 ， 描 
述 元 的 值 可 以 是 原子 ， 也 可 以 是 另 一 个 功能 摘 述 FD. 所 以 ， 功 能 描述 是 
递归 地 定义 的 。 








下 面 给 出 表示 多 标记 集合 的 功能 描述 的 严格 定义 : 








o 为 一 个 功能 描述 FED， 当 且 仅 当 c 可 表示 为 
f, 2 v. 
| | 


LO CN. 


n n 
其 中 ,ff 表示 标记 名 ，vi 表示 标记 值 ， 而 且 ， 满 足 如 下 两 个 条 件 : 





i. 标记 名 fi 为 原子 ， 标 记 值 vi 或 为 原子 或 为 男 一 个 功能 描述 FD; 
li. a<f; >= Vi 


(Ci=1...,D) 





采用 这 样 的 功能 描述 ， 就 可 以 表示 多 标记 集合 。 


组 成 功能 描述 FD 的 一 组 描述 元 都 写 在 一 个 方 插 号 里 ， 书 写 的 顺序 
无 关 紧 要 。 在 一 个 “属性 / 值 ” 偶 对 中 ， 属 性 是 一 个 符号 ， 如 
NUMBER ( 数 ) 、SUBJ (主语 ) . OBJE (iB) 、MODF (修饰 
语 ) . HEAD (Pine) 等 ， 它 的 值 或 者 是 一 个 符号 ， 或 者 是 另 一 个 功 
能 描述 FD. 属性 和 它 的 值 之 间 用 等 号 来 连接 ， 因 此 ，a = b 表 示 属 性 a 的 
值 是 b. 





例如 ， 句 子 “ 我 了 解 她 ?可 以 用 下 面 的 功能 描述 FD 〈1) 来 表示 : 


FD( 1 ): <cat> = S | 
| <cat> = PRONOUN 
| «num = SING 
« subj » 
«per» - 
«sem » = AGENT 
«cat» = PRONOUN 
«num > = SING 
« obje » 
| er = 
«sem » = PATIENT 
| <cat> = V 
< pred > 
P e pm | 


| « voice > = ACTIVE 


这 个 功能 描述 表示 : 个 句子 (cat = S) ， 在 这 个 句子 
中 ， 主 语 “ 我 ”是 代词 ， 单 数 ， 第 一 人 称 ， 宾 语 “ 她 ?是 代词 ， 单 数 ， 第 三 
人 称 ， 谓 语 * 了 解 ?是 动词 ， Ere 了 解 "”， 整 个 句子 的 语 态 是 主 
动态 。 这 些 功能 描述 也 就 是 这 个 句子 的 多 标记 集合 。 





在 一 个 功能 描述 FD 中 ， 每 一 个 “属性 / 值 ” 偶 对 都 是 该 FD 所 描述 对 象 
的 一 个 标记 。 如 采 这 个 值 是 一 个 符号 ， 那 么 ， 这 个 “属性 / 值 > 偶 对 残 叫 做 
功能 描述 FD 的 一 个 基本 标记 。 任 何 功 能 描述 FD 都 可 以 用 一 个 由 基本 标 
记 组 成 的 表 来 表示 。 例 如 ， 上 面 的 功能 描述 FD (1) 也 可 以 用 下 面 的 表 
FD (2) 来 描述 : 





FD (2) : «cat» = S 
«subj cat» = PRONOUN 


«subj num» - SING 


«subj per» = 1 

«subj sem» - AGENT 
«obje cat» - PRONOUN 
«obje num» - SING 
«obje num» - 3 

«obje sem» - PATIENT 
«pred cat» - V 

«pred lex» =” J fit” 


<voice> = ACTIVE 


在 这 个 表 FD (2) n, RIBS <> HINA SPM AR ERIE 
(path) ， 功 能 描述 FD 中 的 每 一 个 值 ， 总 可 以 用 一 条 路 径 来 称呼 它 。 可 
以 看 出 ，FD (2) 中 表达 的 标记 与 FD COD 中 表达 的 标记 是 相同 的 ， 它 
们 是 同一 个 句子 中 的 多 标记 集合 的 不 同 的 表达 方式 。 


Ait, RFD (1) MFD (2) 都 是 同一 个 功能 描述 FD 的 两 种 表 
示 ， 它 们 还 各 有 不 同 : FD (1) 显示 了 功能 描述 的 散 套 ， 因 而 强调 了 功 
能 描述 的 结构 特性 ，FD (2) 是 一 个 表 ， 因 而 强调 了 功能 描述 内 部 的 分 
量 特性 。 这 两 种 表示 方法 都 有 意 模糊 了 标记 和 结构 之 间 的 通常 区 别 ， 使 
之 具有 更 大 的 灵活 性 。 我 们 在 上 文中 对 多 标记 的 表示 方法 ， 与 这 里 的 
FD (2) 比较 接近 ， 因 为 MMT 模 型 对 于 结构 层次 的 描述 ， 是 通过 多 又 树 
来 表示 的 ， 所 以 ， 在 只 描述 句子 的 代数 值 的 多 标记 集合 中 ， 就 没有 必要 
再 强调 结构 特性 的 描述 了 。 








把 功能 描述 看 作 是 非 结构 性 的 多 标记 集合 ， 瓯 有 可 能 用 集合 论 的 标 
准 运算 来 处 理 它 们 。 但 是 ， 功 能 描述 FD 又 不 完全 服从 集合 论 的 运算 : 
合 论 运算 一 般 并 不 考虑 运算 对 象 的 相 容 性 ， 而 功能 描述 FD 则 必须 考 
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如 采 有 两 个 功能 描述 中 都 包含 一 个 共同 的 属性 ， 而 这 个 共同 的 属性 
在 这 两 个 功能 描述 中 的 值 “ 可 以 是 符号 ， 也 可 以 是 妨 外 的 FD) 不 相 
同 ， 那 么 ， 这 两 个 功能 描述 就 是 不 相 容 的 。 例 如 ， 如 果 功 能 描述 F1 中 含 
有 基本 标记 <A>=x， 功 能 描述 F2 中 含有 基本 标记 <A>=y， 那 么 ， 除 非 
x=y， 人 否则 ，F1 和 F2 不 相 容 。 如 果 两 个 功能 描述 不 相 容 ， 那 么 ， 在 进行 
合 论 中 的 “并 ?运算 时 ， 运 算 的 结果 ， 就 不 会 是 一 个 合格 的 功能 描述 。 


例如 ， 假 定 功能 摘 述 F1 所 摘 述 的 句子 中 含有 一 个 施 事主 语 ， 而 功能 
描述 F2 所 描述 的 句子 中 含有 一 个 受 事 主语 ， 那 么 ， 如 果 S1 和 S2 是 它们 相 
应 的 基本 标记 集合 ， 那 么 它们 的 并 集 S1 U S2 就 不 是 合格 的 ， 因 为 这 个 并 
集中 ，<subj sem» = AGENT 和 <subj sem» = PATIENT 不 相 容 。 





对 于 语法 上 有 上 收 义 的 句子 或 词组 ， 需 要 两 个 或 两 个 以 上 的 不 相 容 的 
功能 搬 述 来 表示 。 例 如 , “三 个 学 校 的 实验 员 来 了 ”这 个 句子 是 有 上 收 义 
的 ， 它 有 两 个 意思 。 一 个 意思 可 用 功能 描述 FD (30 来 表示 ， 男 一 个 意 
思 可 用 功能 描述 FD (4) 来 表示 : 


FD(3): /<cat> = S 
( «cat» = NP 


«head» = XRK’ 

<subj > = <cat> = NP 
<modf> = leads: = tu 
«quant» = 3 

<pres> mE 


«tense» = PAST 
« voice» - ACTIVE 


FD(4): (7 «cat» = S 
«cat» z NP 
<head> =“ 实 验 员 ” 
< subj > <cat> = NP 
i <modf> =| <head> = 学校 | 
< quant > = 3 
< pred > = 
«tense» = Eu 
« voice » - ACTIVE 


可 以 看 出 ， 在 FD (3) 中 ， 句 子 的 意思 是 只 来 了 3 个 实验 员 ， 而 这 





3 个 实验 员 是 学 校 的 实验 员 ; (FD (4) 中 ， 句 子 的 意思 是 来 了 一 
些 实验 员 ， 而 这 些 实验 员 分 属 3 个 不 同 的 学 校 。 








几 个 不 相 容 的 简单 的 功能 描述 FD: F1, ..., Fk， 可 以 合并 成 为 一 个 单 
独 的 复杂 的 功能 描述 FD: (F1, ..., Fk}, 复杂 的 功 和 描述 表示 分 量 的 对 象 
集 的 合并 ， 其 中 的 不 相 容 部 分 ， 应 该 用 花 括号 括 起 来 。 下 面 是 把 
FD (3) MED (4) 合并 而 成 的 复杂 的 功能 描述 FD (C50 ， 它 摘 述 了 
FD (3) MED (4) 所 分 别 表 示 的 两 种 结构 关系 : 





FIX 5 ): mE =S 


n | 











<head> =” XR’ 
<cat> = NP 
= = 2 asuma 
«head» = “学 校 
< subj > = 
[n = 3 
<cat> = NP 
[en =| <head> = 学校 
«quant» = 3 
«pred» = ' 


| <tense > = PAST 
«voice» = ACTIVE 


FD (5) 中 的 花 括号 表示 不 相 容 的 功能 描述 或 子 功能 描述 之 间 的 析 
取 关 系 。 用 这 种 复杂 功能 描述 的 紧凑 形式 ， 可 以 描述 大 量 的 互 不 相 容 的 
对 象 。 一 般 地 说 ， 功 能 合 一 语法 中 的 语法 规则 可 以 用 一 个 统一 的 功能 描 
述 FD (6) 表示 如 下 : 


FIX 6 ): eae eL. 
<at> = G; 
«cab» =G 


对 于 采用 这 种 多 标记 集合 来 描述 的 系统 来 说 ， 其 描述 的 详尽 程度 是 
没有 限制 的 。 一 个 描述 中 所 包含 的 标记 越 多 ， 它 对 所 搬 述 的 对 象 的 限定 
也 惑 越 具 体 ， 如 条 从 一 个 描述 中 撤消 东 些 标记 ， 残 可 能 扩大 它 所 描述 的 
MAA mM. A, RIG Ic Boe, Uae A 
容 ， 才 可 以 使 用 多 标记 集合 对 自然 语言 进行 恰当 的 描述 。 














在 机 需 翻 译 的 机 器 词典 中 ， 对 于 每 一 个 单词 的 定义 不 仅仅 标 出 其 词 
类 ， 而 且 ， 还 应 该 标 出 这 个 词 的 静态 的 词法 标记 、 人 句法 标记 和 语义 标 
记 ， 这 了 束 古 在 词 这 一 级 采用 多 标记 集合 。 根 据 MMT 模 型 的 双 态 理论 ， 
随 着 自动 句法 分 析 的 推进 ， 句 子 中 的 每 个 单词 除了 说 标 注 上 来 自 词 典 中 
的 这 些 静 态 标 记 之 外 ， 在 表示 句子 层次 结构 的 树 形 图 的 每 个 结 点 上 ， 还 
会 运算 出 一 些 动态 标记 ， 它 们 大 大 地 充实 了 来 自 词 典 中 的 静态 标记 的 内 
容 ， 这 些 标记 特征 当然 也 要 以 多 标记 集合 的 形式 来 标注 ， 这 就 是 在 句法 
分 析 和 语义 分 析 一 级 采用 多 标记 集合 ， 多 标记 集合 中 的 各 种 标记 ， 可 以 























在 短语 归并 的 过 程 中 从 中 心 词 的 已 有 标记 中 直接 继承 过 来 ， 也 可 以 根据 
句法 语义 规则 动态 地 通过 计算 机 计算 出 来 。 在 原 语 上 自动 分 析 中 采用 这 样 
的 多 标记 集合 ， 有 效 地 解决 了 歧义 结构 的 判定 问题 ， 并 且 把 句法 分 析 和 
语义 分 析 通 过 多 标记 集合 这 种 手段 有 机 地 结合 起 来 ， 从 而 提高 原 语 句法 
语义 分 析 的 效率 。 





我 们 提出 多 标记 集合 概念 ， 受 到 了 音 位 学 中 “区 别 特征 理论 ”的 很 大 
启示 。1951 年 ， 雅 可 布 逊 CR. Jakobson) 指出， 一 切 语音 都 不 是 单元 性 
的 《monadic) ， 它 们 还 可 以 进一步 分 成 一 对 对 的 最 小 对 立体 ， 而 且 这 
些 最 小 对 立体 可 以 被 归纳 为 十 二 对 区 别 特征 ， 这 样 ， 束 把 传统 音 位 学 中 
一 个 个 不 可 分 解 的 元 音 和 辅 首 变 为 可 分 解 的 区 别 特征 的 集合 。 这 一 理论 
使 得 语言 学 家 有 可 能 通过 逻辑 描述 的 方法 来 分 析 和 鉴定 首位 的 结构 ， 把 
音 位 学 的 理论 所 高 到 一 个 新 的 阶段 。 在 早期 的 短语 结构 语法 中 ， 语 法 范 
畴 是 没有 内 部 结构 的 ， 它 们 就 象 “ 区 别 特征 理论 ”提出 之 前 的 音 位 一 样 ， 
也 是 只 具有 单元 性 的 单位 ， 采 用 多 标记 集合 来 描述 这 些 句法 范畴 之 后 ， 
我 们 发 现 ， 原 来 这 些 句 法 范畴 也 不 是 单元 性 的 ， 它 们 也 具有 结构 ， 因 而 
它们 不 能 采用 单一 的 标记 ， 而 必须 采用 多 标记 集合 来 描述 。 当 然 ， 上 自然 
语言 处 理 中 的 多 标记 集合 中 表示 的 语言 特征 比 音 位 学 中 的 区 别 特征 要 丰 
富 得 多 ， 它 们 不 仅 是 二 元 对 立 的 ， 而 且 还 是 多 元 对 立 的 ， 不 仅 上 只 有 线性 
的 结构 ， 而 且 还 具 鹏 套 的 、 递 归 的 结构 ， 所 以 ， 对 于 多 标记 集合 就 不 
能 采用 一 般 的 集合 论 方法 来 运算 。 









































我 们 参照 功能 合 一 语法 ， 采 用 “ 合 一 ”这 种 独特 的 运算 方式 来 对 多 标 
记 集 合 进 行 运算 。 

“ 合 一 ”(unification〉 这 个 术语 最 初 是 在 数理 逻辑 的 一 阶 谓词 演算 
中 开始 使 用 的 。 寻 找 某 种 项 对 变量 的 置换 ， 从 而 使 表达 式 一 致 的 过 程 叫 





做 合 一 。 如 果 存 在 一 个 置换 S， 把 它 作用 到 表达 式 集 {Ei } 中 的 每 一 个 元 
RE, AEs = Es =.= Eng ， 那 么 ， 就 说 表达 式 集 {Ei } 是 可 合 一 的 ， 
SHAY CE, } 的 合 一 者 〈unifier) ， 因 为 它 的 作用 是 使 该 集合 简化 为 一 
致 的 形式 。 


例如 ， 有 两 个 逻辑 项 A: f Cx, y) MB: f Cg Cy, a oe 4h (a, 
b) ) ， 如 果 用 逻辑 项 C: x=g (h (a, b), a, c) FID: y-h (a, b) 置换 
A、B 中 的 变量 x 和 y， 则 置换 之 后 A、B 均 成 为 f Cg (h (a, b), a, œ), 
h(a b) ) ， 使 得 A 和 B 都 成 为 一 致 的 形式 ， 这 个 结果 叫做 A、B 的 合 
一 ，C 和 D 叫 做 A、B 的 合 一 者 ，A、B 叫 做 可 合 一 的 逻辑 项 。 


目前 ， 这 种 合 一 运算 已 经 被 广泛 地 应 用 于 高 阶 逻辑 、 计 算 复杂 性 理 
论 、 可 计算 性 理论 、 逻 辑 程序 设计 等 领域 ， 并 进一步 发 展 到 计算 语言 
学 、 机 器 翻译 、 自 然 语言 理解 和 和 人工 智能 等 领域 。 

合 一 运算 被 如 此 广泛 应 用 的 原因 之 一 是 逻辑 程序 设计 语言 PROLOG 


的 普及 ， 因 为 PROLOG 在 霍 因子 句 (Hor clause) 的 归结 过 程 中 所 依据 
的 基本 运算 之 一 束 是 合 一 运算 。 








在 MMT 模 型 中 ， 我 们 使 用 合 一 运算 来 把 奉 干 个 功能 描述 FD 合并 成 
一 个 单独 的 功能 描述 FD。 具 体 地 说 ， 如 果 有 两 个 以 上 简 蛙 的 功能 搬 述 
ED 是 相 容 的 ， 便 可 通过 合 一 运算 把 它们 合并 成 一 个 简单 的 功能 描述 
ED， 使 得 这 个 功能 描述 FD 所 描述 的 对 象 正 是 前 面 知 干 个 功能 描述 FD 所 
共同 描述 的 对 象 。 











这 样 的 合 一 运算 与 集合 论 中 的 求 并 运算 十 分类 似 ， 但 合 一 运算 与 求 
并 运算 的 不 同 之 处 在 于 ， 当 合 一 被 应 用 于 不 相 容 的 项 时 ， 合 一 失败 ， 并 
产生 一 个 空 集 。 





求 并 运算 所 得 到 的 并 集 是 参与 运算 的 各 个 集合 里 所 有 不 同 元 素 组 成 
的 集合 。 例 如 ， 


(A, B} U{C, B} = {A, B, C] 





在 求 并 运算 时 ， 总 是 把 集合 中 的 元 又 看 成 是 不 可 分 解 的 原子 .即使 
TURE AFA, W Cf, vi ) 表示 特征 的 值 为 vi ， 求 并 运算 时 仍然 
把 它们 看 成 是 不 可 再 分 解 的 个 体 ， 而 不 考虑 它们 的 内 部 结构 。 假 设 

a={ (fi, vi) P (f5, v5) } 

B={ (fi,vi')} 
即使 v1 2 v, '，a 与 B 所 表达 的 信息 互相 抵触 ， 在 进行 求 并 运算 之 后 ， 其 
并 集 仍然 为 

y=aUB={ h, v), (fi,vi') , C5, v2] 


在 并 集中 虽然 保持 了 抵触 的 信息 ， 不 过 ， 从 信息 组 合 和 传递 的 角度 
来 看 ， 所 求 得 的 并 集 Y 是 没有 意义 的 。 








合 一 运算 必须 考虑 运算 结果 的 合理 性 ， 在 合 一 运算 中 ， 当 a 与 B 所 表 
达 的 信息 相互 抵触 时 ， 其 合 一 结果 为 空 集 〈 记 为 人 ) ， 表 示 合 一 失 
败 。 如 果 用 符号 U 表 示 合 一 ， 则 有 
aUB = Ø 
下 面 我 们 给 出 在 MMT 模 型 中 合 一 运算 的 形式 定义 : 











[定义 」 合 一 运算 (运算 符号 用 U 表 示 ) 


1. 若 a 和 b 均 为 原子 ， 则 aUb=a， 当 且 仅 当 a=b; BW aUb= Ø. 
2. 奉 a 和 B 均 为 多 标记 集合 ， 则 

Oia (D =v, {HB CD 的 值 未 经 定义 ， 则 f=v 属 于 aU p; 

DEB (D =v, (Ho CD 的 值 未 经 定义 ， 则 f=v 属 于 a UB; 


a (D =V] > p (D 一 V2? > Ay, 与 好 不 相抵 触 ， 则 f= (v4 Uv, 
) 属于 aUB; 否则 aUB = 2. 








从 这 个 定义 可 以 看 出 ， 集 合 论 中 的 求 并 运算 是 合 一 运算 的 一 种 特殊 
情况 。 当 合 一 的 对 象 所 含 的 元 又 为 不 可 分 解 的 原子 时 ， 合 一 的 结果 等 于 
并 集 。 妆 合 一 的 对 象 是 有 结构 的 多 标记 集合 时 ， 束 要 检验 标记 的 相 容 
性 ， 只 有 当 标 记 相 容 时 ， 相 应 的 各 个 标记 才能 合 一 。 因 此 ， 合 一 运算 具 
有 两 种 作用 : 一 个 是 合并 原 有 的 标记 信息 ， 构 造 新 的 标记 结构 ， 这 与 集 
合 论 中 的 求 并 运算 类 似 ， 为 一 个 是 检查 标记 的 相 容 性 和 规则 执行 的 前 所 
条 件 ， 如 果 参 与 合 一 的 标记 相 冲 突 ， 就 立即 宣布 合 一 失败 。 可 见 ， 合 一 
运算 提供 了 一 种 在 合并 各 方面 来 的 标记 信息 的 同时 ， 检 验 限制 条 件 的 机 
制 。 这 正 是 目 然 语言 处 理 的 句法 语义 分 析 所 需要 的 ， 因 而 它 受 到 目 然 语 
言 处 理工 作者 的 欢迎 。 
































我 们 举例 来 说 明 如 何 进 行 合 一 运算 。 


例 1. 
«cat» = N ) 
( «cat» =N «cap» =N <lex > = 小 王 ” 
«lex» = “小 王 ” M us we «sem» = AGENT 
«sem» = AGENT <per> = 3 <num> = SING 
<per> = 3 





由 于 参与 合 一 运算 的 两 个 功能 描述 中 的 多 标记 是 相 容 的 ， 因 此 ， 合 
一 运算 的 结果 等 于 这 两 个 功能 描述 中 的 多 标记 求 并 。 


例 2. 


«cat» =N | | 
«lex» = 小 王 ” |U| «sem» = PATIENT | 一 NIL 
«sem» = OEN oe = 3 | 
由 于 这 两 个 功能 描述 中 ， 第 一 个 功能 描述 中 的 sm=AGENT 第 二 个 
功能 描述 中 的 sem=PATIENT 相 互 抵触 ， 因 而 合 一 运算 的 结果 为 NIL， 表 
示 合 一 失败 。 


= = N 


例 3. 


PLUR 

| <cat > = PRONOUN 
<num > = SING 
| «form» =“ 我 ” | 


« num » 
« form » 


«num? = SING 


|o = | 
<num> = SING 
Les 三 我 ” | 
第 一 个 功能 描述 是 由 不 相 容 的 两 个 简单 功能 描述 合并 而 成 的 复杂 功 
能 描述 ， 它 与 第 二 个 功能 描述 进行 合 一 运算 时 ， 取 相 容 的 标记 作为 合 一 
运算 的 结果 。 由 于 第 一 个 复杂 功能 描述 中 的 标记 








nm > = PLUR 
«form» =“ 我 们 ” 


与 第 二 个 功能 描述 中 的 标记 不 相 容 ， 故 被 售 去 。 


一 般 地 说 ， 两 个 复杂 功能 描述 的 合 一 结果 仍然 是 复杂 功能 描述 ， 其 
中 ， 每 一 项 代表 原来 的 功能 描述 中 的 一 对 相 容 项 。 因 此 ， 


{ai d» , ory dn } U tb, „Do pune sy b, ! 


就 得 到 一 个 形式 为 {ci , c; ,.…, ck } 的 功能 描述 ， 其 中 每 一 个 o (1<h<k) 
都 是 一 对 相 容 项 的 合 一 结果 ai = bj C1sisn, 1<j<m) 。 





由 此 可 见 ， 合 一 运算 应 该 具有 如 下 的 性 质 : 


1. 合 一 运算 可 以 对 信息 进行 相 加 : 


例如 ， 


| «cat > =PRONOUN | u | « agreement > =| «num > =SING | | 
«cat» = PRONOUN 
= 
| «agreement > = | «num» = SING j 


其 中 ， 标 记 AGREEMENT 表 示 一 致 关 系 


例如 ， 


« cat > =PRONOUN 


| «cat» = PRONOUN | U 
< agreement > =| «num » =SING | 


«cat» = PRONOUN 
一 一 > 
< agreement > = | «num > = SING | 


前 一 个 标记 集合 中 的 <cat>=PRONOUN 被 吸收 到 后 一 个 标记 集合 当 
中 去 了 . 


3. 空 日 项 是 合 一 运算 的 么 元 : 


[ J 


<cat > = PRONOUN 
一 一 > 
| «agreement > = | «num» = ien 
空白 项 与 多 标记 集合 进行 合 一 ， 则 该 空白 项 被 多 标记 集合 吸收 。 


<cat > = PRONOUN 
| «agreement > = | «num > = SING j 


4.， 当 标记 信 相 容 时 ， 相 同 的 标记 可 以 


PN 
ri M 


例如 ， 


< agreement > = | «num» = SING | 
| «subj» = | <agreement> = | «num» = onl 
U( «subj» =| «agreement» =[ «per» = 3 J) 
we > =| «num» = SING | 


. «num » - SING 
«subj» - | <agreement > = | J 





«pero = 3 


由 于 前 后 的 多 标记 集合 中 ， 标 记 <subj> 和 标记 <agreement> 的 中 的 标 
记 值 <num> = SING 和 <per> = 3 是 相 容 的 ， 所 以 ， 合 一 后 形成 多 标记 集 


A 
口 


<num > = i) 


«subj» = | «agreement > = 
«per» = 3 


如 果 把 自然 语言 看 作 是 一 个 传递 和 负载 信息 的 系统 ， 并 且 承 认 自 然 
语言 中 的 句法 成 分 和 语义 成 分 都 可 由 较 小 的 成 分 合成 较 大 的 成 分 ， pa 
么 ， 采 用 合 一 作为 句法 和 语义 分 析 的 基本 运算 便 是 非常 理想 的 了 。 
因为 ， 





第 一 ， 一 个 语言 单位 〈 如 句子 或 词组 等 ) 所 负载 的 信息 可 以 分 布 在 
各 个 成 分 之 中 ， 每 个 成 分 所 负载 的 可 以 只 是 部 分 的 信息 。 





第 二 ， 通 过 合 一 运算 ， 在 小 成 分 组 合成 大 成 分 的 过 程 中 ， 小 成 分 所 
负载 的 信息 ee i ON i He 企 合 一 运算 过 
程 中 ， 信 息 只 逐渐 增加 而 不 减少 。 


， 由 于 句法 和 语义 分 析 都 以 合 一 作为 基本 运算 ， 2 
法 性 可 以 通过 语义 手段 来 判断 ， 而 且 ， 还 可 以 把 句子 的 句法 结构 和 语 
表示 用 合 一 运算 这 种 方式 更 加 目 然 地 衔接 起 来 。 





第 四 ， 不 同 的 功能 描述 的 合 一 运算 结果 ， 同 这 个 运算 所 进行 的 先后 











次 序 无 天， 不 论 合 一 从 哪个 方向 开始 ， 也 不 论 是 先 合 一 还 是 后 合 一 ， 合 
一 的 结果 都 是 相同 的 。 合 一 运算 的 这 种 无 序 性 非常 便于 进行 并 行 处 理 ， 
而 且 还 使 我 们 有 可 能 自由 地 选择 分 析 算 法 和 目 然 语言 描述 的 语法 理论 。 





下 面 ， 我 们 来 次 明 在 词 条 定义 、 句 法 规则 、 语 义 规则 和 句子 的 描述 
中 ， 怎 样 来 全 面 地 、 系 统 地 使 用 多 标记 集合 。 


T 


ig] AK XE TTI s 


例如 ， 单 词 “ 仪 表 ” 有 两 个 义 项 ， 在 词 条 “仪表 ”中 ， 可 给 出 两 条 定 
义 ， 每 一 条 定义 的 形式 都 多 标记 集合 的 功能 描述 FD. 见 FD C7) 、 
FD (8). 


FD OD; 
€ GS = N 
«sem > = EQUIPMENT 
«lex» = “仪表 


FD (7) 表示 “仪表 ”是 名 词 ， 它 的 固有 语义 标记 是 “ 设 
备 ”(EQUIPMENT) 。 








FD (8) : 


之 上 和 = IN 
«sem» = APPEARANCE 
«lex» = 仪表 


FD (8) 表示 “仪表 ”是 名 词 ， 它 的 固有 语义 标记 是 “ 形 
JR” (APPEARANCE) 。 





2. ^J i LUI ES] TR UR s 


例如 ，FD (9) MFD (10) 分 别 是 “把 字句 ”和 “被 字句 ”的 规则 : 


FD (9) : 
«cat» - S 
lon. —(...38 - PHRASE... PREDICATE ... ) ] 
. <cat> = NP 
<subj > = : 
| «sem» = its 


«cat» = V 
< predictor > = | < transitivity > = mom 
«voice > = ACTIVE 
<cat> = NP 
«cat» = PREPOSITION | 
<“ 把 ”-phrase > = eS | <lex > = “把 ” | 
«sem » - PATIENT | 


| < definiteness > = DEFINITE 
« voice > = ACTIVE 


上 面 句法 规则 摘 述 中 符号 的 含义 从 相应 的 英文 词 的 词义 不 难 体会 出 


K, PHR. 





标记 patterns 的 值 是 有 序 的 ， 它 规定 了 “把 字 名 ”中 语言 成 分 的 基本 顺 
序 ， 这 样 ， 根 据 标记 patterns 的 值 就 可 以 安排 和 调整 有 关 语 言 成 分 的 位 
置 。 (... 把 -PHRASE ... PREDICATE ..) 表示 “把 ” 字 短 语 在 谓语 动词 之 
前 ， 而 且 在 谓语 动词 之 后 ， 还 应 该 有 其 它 的 语言 成 分 (用 “PREDICATE 
ORAS) ， 用 以 说 明 动 作 的 结果 或 影响 ， 它 们 可 以 是 动态 助 
词 * 了 ”或 “着 ”"、 重 对 的 动词 、 各 种 补 语 等 等 。 








这 条 规则 的 调用 条 件 是 : 
1. 句法 成 分 的 <cat> = S; 


. 谓语 动词 是 一 个 及 物 动 词 ， 即 


NJ 


<transitivity> = TRANSITIVE; 


UJ 


.“ 把 -phrase” 中 的 NP 是 有 定 的 ， 即 
<definiteness> = DEFINITE; 
4. 谓语 动词 之 后 带 有 其 它 成 分 ， 不 能 是 光 杆 动词 。 


FD (10) : 


«bab» = 5 
< patterns > = (... f£ - PHRASE ... PREDICATOR ... ) 


: «cat» = NP 
<subj > = 
«sem» = PATIENT 
( «cat» = V \ 


< predicator > = | < transitivity > = mum 
«voice > = PASSIVE 
( «cat». = NP 
«cat» - PREPOSITION 
«lex» = “被 ” | 
«sem» = PATIENT 
« voice > = PASSIVE 


< 被 -phrase> =| «prep» -| 


标记 patterns 中 的 〈... 被 -PHRASE ... PREDICATE ...) ， 表 示 “ 被 ” 字 
短语 在 谓语 动词 之 前 ， 而 且 在 谓语 动词 之 后 ， 还 有 其 它 成 分 ， 说 明 动 作 
的 结果 或 影响 ， 它 们 可 以 是 动态 助词 “了 ?或 * 过 ” 补 语 、 宾 语 等 等 。 


这 条 规则 的 调用 条 件 是 : 
1. 句法 成 分 的 <cat> = S; 
2. 谓语 动词 是 及 物 动词 ， 即 
<transitivity> = TRANSITIVE 
3. 谓语 动词 之 后 市 有 其 他 成 分 ， 不 能 是 光 杆 动词 。 


可 以 看 出 ,，“ 把 字句 ”和 “被 字句 ”的 调用 规则 是 很 接近 的 ， 不 同 之 处 
在 于 ,“ 把 字句 ”中 的 “把 ” 字 短 语 是 有 定 的 ， 因 为 “把 字句 ”有 处 置 的 意 
味 。 








3. 句子 结构 的 朱 述 : 


例如 ， 人 句子“ 我 吃 了 担 担 面 "的 结构 可 用 FD (11) KHR: 


FD (11) 


«cab» =S 
€ patterns > = ( SUBJ PREDICATOR DIRECT-OBJECT ) 
<voice > = ACTIVE 
<cat> = NP 
< pattern > = ( HEAD ) 
<case > = NOM 
<num> = SING 
<head> = 
<per> = l 
«lex» = “FR” 
<num> = SING 
< definiteness > = DEFINITE 
<per> = 1 
<sem> = AGENT 
«cat» = VP 


«subj» = 


«cat» = V 
< pattems > = (HEAD ATTACHING-ELEMENT ) 
€ transitivity > = TRANSITIVE 
«voice > = ACTIVE 
«aspect». = PERFECT 
< predicator > = «lex» z'"nz 
«cat». = PARTICLE 
€ attaching-element > — | < subcategory > = ASPECTUAL 


<head> = 


<lex> =“T” 
< transitivity > = TRANSITIVE 
«voice» = ACTIVE 
«aspect». = PERFECT 
«cat» = NP 
< patterns > = ( HEAD) 
«cat» =N 
< definiteness > = INDEFINITE 
€ direct-object> = acria «per» = 3 
«lex» =“ 担 担 面 ” 
<sem> = PATIENT 
< definiteness > = INDEFINITE 
«per» = 3 


这 个 功能 描述 中 ， 不 仅 包 括 了 对 单词 、 词 组 和 句子 等 各 级 语言 成 分 


的 特征 和 功能 的 描述 ， 而 且 ， 还 次 明了 中 心动 词 “ 吧 ”的 施 事 、 受 事 等 语 
MR AT TELA A 


复杂 特征 集 与 合 一 运算 是 20 世 纪 80 年 代 自 然 语言 处 理 研究 的 主要 潮 
流 。 当 时 ， 在 自然 语言 处 理 中 进行 了 “基于 复杂 特征 的 方法 ”(comlex- 
feature-based) 、“ 基 于 合 一 的 语法 形式 化 方法 ” (unification-based 
grammar formalism) 每 禹 有 一 般 性 方法 论 意 义 的 研究 ， 复 杂 特 征集 与 合 
一 运算 的 理论 和 方法 ， 正 在 沿 着 不 同 的 历史 线索 迅速 地 发 展 起 来 。 中 文 
信息 MMT 模 型 在 这 种 理论 和 方法 的 发 展 过 程 中 ， 进 一 步 丰 宣 了 自己 的 
内 容 ， 完 善 了 自己 的 方法 ， 并 且 促 进 了 中 国 自 然 语言 处 理 研究 的 世界 
化 。 
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第 八 章 ”语义 目 动 处 理 


目 然 语 言 的 计算 机 处 理 ， 除 了 进行 形态 目 动 处 理 和 句法 目 动 处 理 之 
外 ， 还 要 进行 语义 自动 处 理 。 


关于 语义 自动 处 理 和 句法 自动 处 理 的 关系 ， 在 现 有 的 自然 语言 处 理 
系统 中 还 有 不 同 的 处 理 办 法 ， 有 的 系统 采用 “ 先 句 法 后 语义 ”的 办 法 ， 有 
的 系统 采用 “句法 语义 一 体 化 ”的 办 法 。 








所 谓 “ 先 句法 后 语义 ”， 就 是 在 上 自然 语言 的 分 析 系 统 中 ， 首 先进 行 独 
并 的 句法 分 析 ， 得 到 表示 输入 句子 的 句法 表示 式 ， 然 后 再 经 过 独立 的 语 
义 分 析 ， 获 得 输入 句子 的 语义 表示 式 。 在 句法 分 析 中 ， 虽 然 也 要 利用 附 
加 在 词 和 词组 上 的 茶 些 必要 的 语义 信息 ， 但 主要 的 依据 是 词法 和 句法 信 
恩 。 这 一 类 系统 的 程序 设计 不 依赖 于 菏 个 特定 的 领域 ， 具 有 较 好 的 可 移 
植 性 和 可 扩展 性 。 











所 谓 “ 句 法 语义 一 体 化 ”"， 是 指 在 自然 语言 分 析 系 统 中 ， 不 单独 设置 
一 个 句法 分 析 模 块 ， 而 是 句法 分 析 和 语义 分 析 并 行 ， 或 者 根据 某 些 语义 
模式 ， 直 接 从 输入 句子 求 出 其 语义 表示 式 。 这 一 类 系统 往往 可 以 有 效 地 
处 理 某 些 有 语法 错误 或 者 信息 不 全 的 句子 ， 根 据 语义 线索 直接 获得 对 名 
子 的 语义 解释 ， 但 是 ， 由 于 句法 信息 不 充分 ， 语 义 分 析 往 往 难 于 奏效 。 











不 论 采 取 那 一 种 办 法 ， 语 义 分 析 都 是 必 不 可 少 的 。 所 以 ， 语 义 分 析 
同 句 法 分 析 一 样 ， 它 们 都 是 目 然 语言 处 理 的 最 基本 的 功能 模块 。 








人 工 智 能 的 核心 谍 题 是 知识 表达 的 研究 ， 而 知识 实际 上 也 就 是 有 意 
义 的 、 有 反映 世界 状况 的 符号 集合 。 知 识 表 达 离 不 开 语 义 分 析 ， 表 达 目 然 
语言 语句 意义 的 问题 是 与 知识 表达 的 问题 融 为 一 体 的 ， 目 然 语 言语 义 的 
研究 ， 必 然 会 对 人 工 智 能 中 知识 表达 的 理论 产生 重要 的 影响 。 


本 章 中 ， 我 们 主要 介绍 意义 的 形式 化 表示 方法 ， 一 阶 谓词 演算 ， 讨 
论 各 种 语义 分 析 方 法 ， 如 句法 驱动 的 语义 分 析 、 语 义 语 法 、 浅 层 语 义 分 
析 、 义 妹 分 析 法 、 语 义 场 。 语 言 中 的 词汇 具有 高 度 系统 化 的 结构 ， 正 是 
这 种 结构 决定 了 单词 的 意义 和 用 法 ， 因 此 ， 我 们 还 要 介绍 结构 语义 学 。 








第 一 节 ”语言 意义 的 形式 化 表示 方 
法 与 谓词 论 元 结构 


语言 的 意义 可 以 使 用 形式 化 的 方法 来 捕捉 ， 这 种 形式 化 方法 叫 

做 “意义 表示 ” (meaning representation) 。 之 所 以 需要 这 样 的 意义 表 
示 ， 其 原因 在 于 : 不 论 是 没有 加 工 过 的 语言 输入 ， 还 是 用 我 们 前 面 研究 
过 的 任何 自动 句法 分 析 方 法 推导 出 来 的 结构 ， 都 不 能 形式 化 地 表示 出 语 
言 的 意义 。 更 加 具体 地 说 ， 我 们 所 需要 的 意义 表示 能 够 在 从 语言 输入 到 
与 语言 输入 意义 有 关 的 各 式 各 样 的 具体 任务 所 需要 的 非 语言 知识 之 间架 
起 一 座 桥 梁 。 我 们 取 语 言 的 输入 来 构造 意义 表示 ， 这 样 的 意义 表示 要 使 
用 那些 与 表示 日 常生 活 中 的 常识 性 的 世界 知识 同样 的 材料 来 构成 。 产 生 
这 样 的 意义 表示 并 且 把 它们 指派 给 语言 输入 的 过 程 叫做 “语义 分 


析 ”(semantic analysis) 。 











1. 语言 意义 的 四 种 形式 化 表示 方法 


为 了 把 这 个 概念 说 得 更 加 具体， 我 们 以 “I have a car”( 我 有 一 辆 汽 
E) 这 个 句子 为 例 来 说 明 在 自然 语言 处 理 中 经 常 使 用 的 四 种 常见 的 意义 
表示 方法 。 





e 一 阶 谓 词 演 算 (First Order Predicate Calculus， 简 称 FOPC) 表示 
法 





“I have a car 可 以 表示 如 下 : 


dx, y Having (x) /\ Haver (Speaker, x) ^ HadThing Cy, x) ^ 
Car (y) 


这 里 ， 习 是 存在 量词 ，Having， Haver，HadThing 和 Car 都 是 谓词 ， 
分 别 表 示 “ 具 有 ” “所 有 者 ”，“ 所 有 物 ” 和 “汽车 ”，X 和 y 是 变 元 。 











这 个 表达 式 的 意思 是 ;存在 变 元 x 和 y， 说 话 人 x 是 “所 有 者 "，y 
是 “汽车 "，y 是 x 的 “所 有 物 ”。 


e 语义 网 络 (semantic network) 表示 法 





“I have a car” 可 以 表示 如 下 : 


[ Having o] 


Haver HadThing 


Speaker Car 


图 8.1 语义 网 络 


这 个 语义 网 络 表 示 的 是 一 种 “Having”( 具 有 ) 关系 ， 所 有 者 (Haver) 
是 说 话 人 〈Speaker) ，“ 所 有 物 ”(HadThing) 是 汽车 (Car) 。 


e 概念 依存 图 (Conceptual Dependency diagram) 表示 法 





“I have a car” 可 以 表示 如 下 : 


Car 


POSS-BY 
Speaker 


图 8.2 ”概念 依存 图 








在 这 个 概念 依存 图 中 ，POSS-BY 表 示 “ 所 有 关系 ”(possession) ， 说 话 
A (Speaker) 是 所 有 者 ， 汽 车 (Car) 是 所 有 物 。 


e 基于 框架 的 表示 法 (Frame-based Representation) 





“I have a car” 可 以 表示 如 下 : 


Having 
Haver: Speaker 


HadThing: Car 


这 是 一 个 表示 Having 关 系 的 框架 ， 它 包括 两 个 权 ， 每 一 个 槽 部 有 填充 
物 ， 第 一 个 槽 是 “所 有 者 ”(Haver) ， 填 充 物 是 “说 话 人 ”， 第 二 个 模 





“MAH” (HadThing) ， 填 充 物 是 “汽车 ”。 


这 些 意义 表示 方法 都 可 以 把 语言 输入 同 外 部 世界 和 我 们 关于 外 部 世 
界 的 知识 联系 起 来 。 





尽管 这 四 种 不 同 的 表示 方法 有 很 多 差别 ， 但 是 ， 在 抽象 的 层次 上 ， 
它们 都 有 一 个 共同 的 概念 基础 ， 这 束 是 :意义 表示 是 由 符号 的 集合 所 组 
成 的 结构 而 构成 的 。 如 果 我 们 适当 地 对 这 些 符号 进行 安排 ， 那 么 ， 这 些 
符号 结构 就 可 以 同 在 茶 个 被 表示 的 世界 中 的 实体 以 及 这 些 实体 之 间 的 关 
系 对 应 起 来 。 在 这 种 情况 下 ， 这 四 种 意义 表示 都 使 用 了 分 别 对 应 于 说 话 
人 、 汽 车 以 及 说 明 彼此 之 间 的 所 属性 质 的 一 些 关 系 。 














应 该 注意 ， 在 所 有 这 四 种 方法 中 的 这 些 意 义 表 示 ， 至 少 可 以 从 两 个 
不 同 的 视角 来 看 : 一 方面 ， 把 它们 看 成 是 特定 语言 输入 “I have a car 的 
意义 表示 ， 男 一 方面 ， 把 它们 看 成 是 在 某 个 世界 中 的 事件 状态 的 表示 。 
正 是 这 种 双重 的 视角 使 得 这 些 意义 表示 可 以 用 来 把 语言 输入 和 世界 以 及 
我 们 关于 世界 的 知识 联系 起 来 。 

















这 样 的 意义 表示 需要 有 了 能力 文 持 语义 处 理 的 计算 要 求 ， 包 括 需 要 确 
定 命 题 的 真 值 ， 能 够 文 持 无 收 义 的 表示 ， 能 够 表达 变量 ， 能 够 文 持 推 
理 ， 以 及 具有 充分 的 表现 力 。 上 面 这 四 种 意义 表示 都 具有 这 样 的 能 





2. 请 词 论 元 结构 (Predicate- 
Argument Structure ) 


人 类 所 有 的 语言 在 它们 的 语义 结构 的 核心 部 分 都 有 一 种 谓词 论 元 排 


列 的 形式 ， 叫 做 “谓词 论 元 结构 ”(Predicate-Argument Structure) 。 人 类 
语言 共有 各 种 各 样 的 特征 来 传达 意义 。 其 中 最 为 重要 的 特征 是 表达 谓词 


ELS 


论 元 结构 的 能 








这 种 谓词 论 元 结构 表示 了 隐藏 在 构成 句子 的 单词 和 短语 的 成 分 的 撒 
层 之 下 的 各 个 概念 之 间 存 在 着 的 特定 关系 。 这 个 撒 层 的 结构 在 很 大 的 程 
度 上 能 够 从 输入 的 各 个 部 分 的 意义 出 发 ， 构 造 出 一 个 单独 的 组 合 性 的 意 
义 表 示 。 语 言 最 重要 的 任务 之 一 就 是 帮助 组 织 这 样 的 谓词 论 元 结构 。 





谓词 论 元 结构 的 核心 是 谓词 。 动 词 、 介 词 和 一 部 分 名 词 都 可 以 做 谓 
词 。 


e 动词 做 谓词 : 

我 们 来 看 下 面 的 例子 : 

1. I want Chinese food. 

2. I want to spend less than five dollars. 
3. I want it to be close by here. 

这 三 个 例子 的 句法 论 元 框架 分 别 是 : 


NP want NP 
NP want inf-VP 
NP want NP inf-VP 


这 三 个 句法 框架 分 别 说 明了 动词 want 所 要 求 的 论 元 的 数量 、 位 置 和 
句法 范畴 。 


例如 ， 第 一 个 句法 框架 说 明了 如 下 事实 : 

QD 谓词 want 有 两 个 论 元 : I 和 Chinese food; 

外 这 两 个 论 元 都 必须 是 NP; 

第 一 个 论 元 “I” 处 于 动词 之 前 ， 起 主语 的 作用 ; 


第 二 个 论 元 “Chinese food” 处 于 动词 之 后 ， 起 直接 宾语 的 作用 。 





这 样 的 信息 对 于 捕捉 关于 句法 的 各 种 重要 事实 是 非常 有 价值 的 。 


除了 句法 信息 之 外 ， 我 们 还 可 以 得 到 语义 方面 的 信息 ， 如 果 我 们 分 
析 这 些 可 以 观察 到 的 显而易见 的 语义 信息 ， 我 们 还 可 以 进一步 获得 关 
于 “语义 角色 ”(semantic role) 和 “语义 限制 ”〈semantic restriction) 的 信 
自 


VH 


DEXA € x n] fito ff (thematic role) 或 者 格 角 色 (case 
role) 。 例 如 ， 在 句子 1, 2, 3 中 ， 动 词 之 前 的 论 元 始终 起 着 want 行 为 的 实 
体 的 作用 Cwanter) ， 而 动词 之 后 的 论 元 则 起 着 对 want 的 内 容 的 作用 
(wanted) 。 注 意 到 这 些 规则 并 且 相 应 地 标注 它们 ， 我 们 就 能 够 把 动词 
的 表层 论 元 与 在 底层 语义 中 的 一 套 离散 的 角色 联系 起 来 。 更 加 一 般 地 
说 ， 动 词 的 次 范畴 化 框架 容许 我 们 把 表层 结构 中 的 论 元 与 在 这 个 输入 的 
底层 语义 表示 中 这 些 论 元 所 扮演 的 语义 角色 连接 起 来 〈linking) 。 把 角 
色 与 特定 的 动词 与 动词 的 类 别 联 系 起 来 的 这 种 研究 ， 通 常 叫 做 “ 题 元 角 
色 分 析 ”(thematic role analysis) 或 者 “ 格 角 色 分 析 ”(case — role 


analysis) 。 








@ 关 于 这 些 角 色 的 语义 限制 。 例 如 ， 在 上 面 的 句子 中 ， 并 不 是 每 一 
个 在 动词 前 面 的 名 词 都 能 做 “ 想 ...... 的 人 ”(wanter) ， 只 有 某 一 类 的 概 








念 或 者 范畴 才能 够 直截了当 地 充当 “ 想 .………. 的 人 ”的 作用 。 有 具体 地 说 ， 动 
词 want 限 制作 为 第 一 个 论 元 出 现 的 成 分 是 那些 能 够 在 实际 上 进行 want 这 
样 行为 的 那些 人 。 在 传统 上 ， 这 样 的 概念 叫做 “选择 限制 ”(selectional 
restriction) 。 通 过 使 用 这 种 选择 限制 ， 动 词 就 可 以 具体 地 说 明 对 于 它 的 
论 元 的 语义 限制 是 什么 。 


e 介词 做 谓词 : 


例如 ， 在 短语 “A Chinese restaurant under fifteen dollars”( 价 钱 在 15 
美元 以 下 的 中 国 饭 店 ) 中 ， 介 词 “under” 可 以 看 成 是 具有 两 个 论 元 的 请 


词 : 第 一 个 论 元 是 Chinese restaurant， 第 二 个 论 元 是 fifteen dollars， 第 一 


个 论 元 与 第 二 个 论 元 处 于 一 种 “under” 的 关系 之 中 。 可 以 表示 如 下 : 
Under (ChineseRestaurant, $15) 
。 名 词 做 谓词 


例如 ， 在 句子 “Make a reservation for this evening for a table for two 
persons at 8:00.”( 给 两 个 人 预订 一 个 今 晚 8:00 的 餐 位 ， 中， 尽管 英语 句 
子 中 的 主要 动词 是 “make”， 但 是 它 的 谓词 却 应 该 是 名 词 “reservation”， 


可 以 表示 如 下 : 














Reservation (Hearer, Today, 8PM, 2) 








上 面 的 讨论 清楚 地 说 明 ， 任 何 有 用 的 意义 表示 方法 必须 能 够 文 持 语 
义 的 谓词 论 元 结构 的 特征 。 具 体 地 说 ， 它 必须 支持 语言 所 表示 的 语义 信 
El 
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下 面 ， 我 们 进一步 介绍 第 一 种 意义 的 形式 化 表示 方法 : 一 阶 谓词 演 
算 表示 法 。 


HE —BrnB ve 


一 阶 谓词 演算 (First Order Predicate Calculus, faj#KFOPC) 是 一 种 
灵活 方便 的 、 容 易 理解 的 、 在 计算 上 可 循 的 方法 ， 这 种 方法 可 以 表示 的 
知识 能 够 满足 我 们 在 前 面 提出 的 对 于 语言 意义 表示 提出 的 那些 要 求 。 具 
体 地 说 ， 一 阶 谓词 演算 可 以 为 语言 意义 表示 的 可 能 性 验证 、 推 论 和 表达 
能 力 等 方面 提供 坚实 的 计算 基础 。FOPC 最 引 人 注 目的 特征 是 : 它 对 于 
所 表示 的 事物 只 做 很 少 的 说 明 ，FOPC 所 做 的 说 明 是 相当 容易 理解 的 ; 
它 所 表达 的 世界 包括 客体 、 客 体 的 性 质 以 及 客体 之 间 的 关系 。 











在 这 一 节 中 ， 我 们 首先 介绍 FOPC 的 基本 句法 和 语义 ， 然 后 描述 
FOPC 的 应 用 ， 并 讨论 FOPC 之 间 的 连接 。 


1. FOPC 的 基本 人 句法 


我 们 可 以 使 用 上 下 文 无 关 语 法 (CFG) 的 规则 形式 来 递归 地 描写 
FOPC 的 句法 : 
Formula-SAtomicFormula 
| Formula Connective Formula 
| Quatifier Variable ... Formula 
| 4 Formula 


| (Formula) 


AtomicFormula—Predicate (Term ...) 
Term—Function (Term ...) 
| Constant 
| Variable 
Connective-/A | V |> 
Quantifier ,vy (for all) | 3 (there exists) 


Constant-A 


| VegetarianFood 


| Sanchon 


Variable—x | y | 


Function sLocationof 


| CuisineOf 


从 这 些 描述 中 可 以 看 出 ，FOPC 的 原子 公式 (Atomic Formula) 的 形 


AtomicFormula 5 Predicate (Term ...) 


其 中 ，Predicate 是 谓词 ，Term 是 “项 ”。 





FOPC 的 项 有 三 种 类 型 : 常量 (constant) , paz (function) 和 变量 


(variable) 。 


FOPC 中 的 常量 (constant) 引用 所 描述 的 世界 中 的 特定 的 客体 。 按 
照 惯例 ， 常 量 通 常用 一 个 单独 的 大 写字 母 来 描述 ， 如 A 和 B 等 等 ， 也 可 
以 用 一 个 单独 的 大 写 的 单词 来 描述 ， 例 如 ， 本 书 作 者 2004 年 在 韩国 科学 
技术 院 (Korea Advanced Institute of Science and Technology， 人 简称 
KAIST) 电子 工程 与 计算 机 系 〈Electronic Engineering and Computer 
Science department， 人 简称 EECS) 教书 ，“KAIST” 是 我 们 所 描述 的 世界 中 
的 一 个 特定 的 客体 ， 全 部 字母 都 大 写 ， 我 们 可 以 把 它 看 成 一 个 常量 ; 
KAIST 附 近 有 一 个 素食 饭店 叫做 “Sanchon”， 这 是 一 个 专 有 和 名词， 第 一 
个 字母 已 经 大 写 ， 也 可 以 看 成 一 个 常量 ;素食 饭店 出 售 素食 (vegetarian 
food) ， 我 们 可 以 把 vegetarian 和 food 连 起 来 写成 “VegetarianFood”， 这 
样 ，VegetarianFood 也 就 可 以 看 出 一 个 和 常量。 正如 程序 设计 语言 中 的 常 
量 一 样 ，FOPC 的 常量 只 严格 地 引用 一 个 客体 。 当 存在 奉 干 个 客体 时 ， 
可 以 用 多 个 音量 来 引用 它们 。 























FOPC 中 的 函数 (function) 相当 于 在 英语 中 经 癌 表 示 为 所 属 格 


(genitive) 的 概念 ， 如 location of Sanchon 或 Sanchon's location (Sanchon 


的 位 置 ) 。 这 样 的 表达 式 翻 译 成 FOPC 可 表示 如 下 : 
LocationOf (Sanchon) 


FOPC 函 数 在 句法 上 相当 于 包含 一 个 单独 论 元 的 谓词。 不过， 重要 
的 是 我 们 应 该 记 住 ， 它 们 在 外 表 上 像 谓词 ， 在 事实 上 却 只 涉及 到 一 个 单 
独 客体 的 “项 *”。FOPC 的 函数 为 引用 特定 的 客体 提供 了 一 种 方便 的 途 
径 ， 使 用 函数 来 引用 客体 时 ， 用 不 着 与 命名 它 的 常量 相 联 系 。 当 存在 看 
像 饭 馆 这 样 的 很 多 命名 客体 时 ， 如 果 使 用 函数 ， 我 们 只 需要 一 个 像 
location 这 样 的 函数 ， 束 可 以 同 各 种 名 字 的 饭馆 联系 起 来 ， 是 非常 方便 
的 。 








同样 地 ，CuisineOf 也 是 一 个 函数 ， 表 示 “ 荣 肴 ”， 例 如 ，cuisine of 
SanchonzkSanchon's cuisine (Sanchon 的 菜肴 ) ， 用 FOPC 表 示 如 下 : 


CuisineOf (Sanchon) 


在 FOPC 引 用 客体 的 机 制 中 的 最 后 一 个 概念 是 变量 〈variable) 。 变 
量 一 般 用 单个 的 小 写字 母 表 示 ， 如 x，y 。 变 量 使 我 们 能 够 对 于 客体 做 出 
判断 ， 进 行 推论 ， 而 不 必 参 照 任何 特定 的 命名 客体 。 变 量 的 这 种 对 没有 
名 字 的 客体 进行 说 明 的 能 力 有 两 个 特色 : 一 是 能 够 对 于 未 知 的 匿名 客体 
进行 说 明 ， 二 是 能 够 对 于 在 某 个 任意 的 客体 世界 中 的 一 切 客 体 进行 说 
明 。 


Connective 是 逻辑 连接 词 。“ 八 ”表示 合 取 ,“V ”表示 析 取 , “>R 
示 纺 涵 。Formula 之 间 ， 可 以 用 连接 词 进 行 连接 。 


QuantifierzéiP fH sig. V (foral) 是 全 称 量词 ，3 习 (there exists) 








古 特 称 量词 。 量 词 使 用 于 变量 的 前 面 ， 对 于 变量 进行 限制 。 


前 面 我 们 对 于 FOPC 的 句法 做 了 初步 的 解释 ， 我 们 知道 了 引用 客体 
的 方法 ， 这 样 ， 我 们 就 可 以 研究 如 何 用 FOPC 来 说 明 在 客体 之 间 的 关系 
To 


从 FOPC 的 名 称 可 以 猿 到 ，FOPC 是 围绕 谓词 的 概念 组 织 起 来 的 。 谓 
词 是 一 种 符号 ， 这 种 符号 用 于 引用 名 称 以 及 在 给 定 领 域内 的 一 定数 量 的 
客体 之 间 的 关系 。 


下 面 是 一 些 FOPC 公 式 的 例子 。 


例子 1.“Sanchon serves vegetarian food.”(Samchon 饭 店 供 素食 ) 可 
以 用 FOPC 公 式 描述 如 下 : 


Server (Sanchon, VegetarianFood) 


这 个 FOPC 公 式 中 的 谓词 是 “Server*"”， 这 是 二 元 谓词 ， 它 说 明 常 
量 “Sanchon” 和 “VegetarianFood” 所 指 的 客体 之 间 存 在 的 关系 是 : Sanchon 
供应 VegetarianFood。 


例子 2.“Sanchon is a restaurant”(Sanchon 是 一 个 饭店 ) 可 以 用 FOPC 
公式 描述 如 下 : 


Restaurant (Sanchon ) 


Restaurant 是 个 一 元 谓词 ， 它 只 涉及 一 个 客体 ， 而 不 涉及 多 个 客 
体 。 这 个 FOPC 公 式 说 明 ，Sanchon 这 个 单独 的 客体 的 性 质 是 “饭店 ”。 


例子 3.“I only have five dollars and I don't have a lot of time.”( 我 只 有 


5 美元 ， 并 且 我 没有 很 多 时 间 ) 这 个 句子 很 复杂 ， 必 须 使 用 逻辑 连接 词 
把 不 同 FOPC 公 式 连 接 起 来 描述 如 下 : 


Have (Speaker, FiveDollars) ^ 4 Have (Speaker, LotOfTime) 
XE, Fra ”表示 否定 。 第 一 个 FOPC 公 式 说 明说 话 人 
(Speaker) 只 有 5 美元 ， 第 二 个 FOPC 公 式 说 明说 话 人 没有 很 多 时 间 。 
两 个 公式 之 间 用 连接 词 “< 八 ”连接 ， 表 示 合 取 。 
由 于 上 下 文 无 关 语法 具有 递归 特性 ， 这 种 递归 特性 使 得 我 们 有 可 能 
使 用 逻辑 连接 词 把 无 限 数目 的 逻辑 公式 连接 起 来 。 这 样 一 来 ， 我 们 就 有 
可 能 使 用 数量 有 限 的 FOPC 工 具 来 表达 数量 无 限 的 意义 。 





2. FOPC 的 语义 


在 FOPC 知 识 库 中 的 各 种 客体 、 性 质 以 及 关系 借助 于 它们 与 这 个 知 
识 库 所 模拟 的 外 部 世界 中 的 客体 、 性 质 和 关系 而 获得 它们 的 意义 。 
此 ，FOPC 的 句子 可 以 根据 它们 所 编码 的 命题 是 否 与 外 部 世界 相符 而 被 
HJK"H." (True) aki” (False) 的 值 。 








我 们 来 研究 下 面 的 例子 : 
“Log-house is near KAIST.” 


在 这 个 句子 中 ，Log-house 是 一 个 饭店 ，KAIST 是 娠 国 科 学 技术 院 
的 简称 ， 捕 捉 在 FOPC 中 这 个 例子 的 意义 包括 辨认 与 句子 中 的 各 种 语法 
成 分 相对 应 的 “项 ?和 “谓词 "， 并 构造 逻辑 公式 ， 用 以 表达 那些 反映 在 这 





个 句子 的 单词 和 句法 中 所 组 涵 的 关系 。 对 于 这 个 例子 来 说 ， 通 过 这 些 工 
作 可 以 得 到 如 下 的 结 


Near (LocationOf (Log-house) , LocationOf (KAIST) ) 





这 个 逻辑 公式 的 意义 可 以 根据 LocationOf (Log-house) 和 
LocationOf (KAIST)》 两 个 项 之 则 的 关系 、 谓 词 Near、 以 及 在 它们 所 模 
拟 的 世界 中 相应 的 客体 和 关系 等 而 获得 。 有 共 体 地 说 ， 这 个 句子 可 以 根据 
在 现实 世界 中 Log-house 是 不 是 真正 与 KAIST 离 得 近 而 被 指派 True ( 真 ) 
或 False《〈 假 ) 的 值 。 当 然 ， 由 于 我 们 的 计算 机 很 少 直接 地 访问 外 部 世 
界 ， 所 以 我 们 只 好 依靠 某 些 其 他 的 手段 来 决定 这 种 公式 的 真 值 。 








我 们 可 以 采用 所 谓 “ 数 据 库 语义 学 ”(database semantics) 来 确定 我 
们 的 逻辑 公式 的 真 值 。 从 操作 性 的 角度 看 ， 对 于 原子 公式 ， 如 果 它 们 字 
面 上 在 知识 库 中 表现 出 来 ， 或 者 它们 可 以 从 知识 库 中 其 他 公式 推论 出 
来 ， 我 们 就 说 这 个 原子 公式 为 真 。 对 于 包含 逻辑 连词 的 公式 ， 可 以 把 公 
式 中 的 成 分 的 意义 与 它们 包含 的 逻辑 连词 的 意义 结合 起 来 ， 从 而 解释 整 
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F 面 的 真 值 表 (Truth Table) 给 出 了 逻辑 连接 词 的 语义 : 
































图 8.3 FOPCH HEK 


这 里 ， “+” 表 示 “True”， “_» 表 示 “False”， “人 ”表示 “and”， à ” 表 


示 “not”， “YY” 表示 “or”， “过 ”表示 “implies” (ZAW) " 
E Ed Ns 
ZU = Al] = 
3. 变量 和 量词 


在 FOPC 中 ， 变 量 有 两 种 用 法 : 一 种 用 法 是 引用 特定 的 匿名 客体 ， 
一 种 用 法 是 一 般 地 引用 在 一 个 集合 中 的 全 部 客体 。 这 两 种 用 法 都 可 以 通 
过 使 用 叫做 “量词 ”(quantifiers) 的 运算 符 来 实现 。 作 为 FOPC 基 础 的 这 
两 个 量词 运算 符 ， 一 个 是 存在 量词 Cexistential quantifier) , WE, 
读 为 “there exists” CFE”) ， 一 个 是 全 称 量词 (universal quantifier) , 
WAV, BA“for allj”(“ 对 于 一 切 的 ”>) 。 





需要 使 用 存在 量词 的 变量 在 英语 中 通常 表现 为 一 个 不 确定 的 名 词 短 
语 。 我 们 来 研究 下 面 的 例子 ， 





例子 1. “a restaurant that serves Japanese food near KAIST”(KAIST 附 
近 的 一 个 供应 日 本 食品 的 饭店 ) 





这 个 名 词 短 语 的 参照 是 具有 特定 性 质 的 茶 个 匿名 客体 。 下 面 是 这 个 
短语 的 一 个 合理 的 意义 表示 : 


习 X Restaurant (x) 
^ Serves (x, JapaneseFood) 


^ Near C CLocationOf (x) , LocationOf (KAIST) ) 
在 这 个 表达 式 开 头 的 存在 量词 告诉 我 们 如 何在 这 个 句子 的 上 下 文中 


解释 变量 x。 大 致 上 说 ， 应 该 至 少 有 一 个 客体 ， 我 们 如 果 用 它 来 普 换 变 
量 x， 结 果 能 够 使 形成 的 句子 为 真 。 例 如 ， 如 果 Maru 是 在 KAIST 附 近 的 


一 个 日 本 饭馆 ， 那 么 ， 用 Maru 来 丛 换 x， 可 以 得 到 如 下 的 逻辑 公 邢 : 


dx Restaurant (Maru) 


^ Serves (Maru, JapaneseFood) 


^ Near C (LocationOf (Maru) , LocationOf (KAIST) ) 


例子 2.“All vegetarian restaurants serve vegetarian food." (TAWA 
食 饭 馆 都 供应 素食 ) 
这 个 句子 的 FOPC 公 式 如 下 : 


V x VegetarianRestaurant (x) 之 Serves (x, VegetarianFood) 


如 果 我 们 用 已 知 的 客体 来 苦 换 变量 x， 所 有 的 这 样 的 蔡 换 都 使 得 相 
应 的 句子 为 真 ， 则 这 个 句子 为 真 。 

我 们 可 以 把 所 有 可 能 的 蔡 换 分 为 两 种 情况 ， 一 种 情况 是 丛 换 的 客体 
是 系 食 饭 馆 ， 丸 一 种 情况 是 丛 换 的 客体 不 是 素食 饭馆 。 


e 蔡 换 的 客体 是 素食 饭馆 : 


VegetarianRestaurant (Sanchon) = Serves (Sachon, 


VegetarianFood ) 
这 个 FOPC 公 式 是 一 个 强 涵 式 ， 它 的 前 提 
是 “VegetarianRestaurant (Sanchon) ”|[“Sanchon 是 一 个 素食 饭馆 ”|] ， 


替换 之 后 得 到 的 结论 是 “Serves (Sanchon, VegetarianFood) ” [“Sanchon 
供应 素食 ”] 。 根 据 真 值 表 ， 如 果 P 为 真 ，Q 也 为 真 ， 则 P 寺 QQ 必定 为 真 。 
在 我 们 的 FOPC 公 式 中 ， 前 提 和 结论 都 为 真 ， 所 以 ， 整 个 的 强 涵 式 也 为 


真 。 


e 蔡 换 的 客体 不 是 系 食 饭馆 。 
VegetarianRestaurant (Maru) 之 Serves (Maru, VegetarianFood) 


我 们 在 前 面 说 过 ，Maru 是 一 个 日 本 饭馆 ， 它 不 是 一 个 素食 饭馆 ， 可 
见 ， 在 这 个 FOPC 公 式 中 ， 前 提 P“VegetarianRestaurant (Maru) ”为 假 ， 
这 时 ， 不 管 结论 Q“Serves (Maru, VegetarianFood) ”是 真 还 是 假 ， 蕴 涵 
TPQ” eA. MA, ta, RIAK 
x\“VegetarianRestaurant (Maru) = Serves (Maru, VegetarianFood) ”总 


HAR 


在 上 面 的 FOPC 公 式 中 ， 我 们 使 用 了 存在 量词 ( 习 〉 或 全 称 量词 
CV) 。 对 于 满足 存在 量词 的 变量 ， 必 须 至 少 存在 一 个 替换 使 结果 为 
真 ， 句 子 才 可 以 为 真 。 对 于 满足 全 称 量 词 的 变量 ， 必 须 所 有 的 普 换 都 使 
结果 为 真 ， 句 子 才 可 以 为 真 。 


4. FOPC 中 的 推理 


在 FOPC 中 ， 推 理 Cinference) 能够 给 知识 库 增加 可 靠 的 新 命题 ， 
或 者 能 够 确定 那些 不 是 明确 地 包含 在 知识 库 中 的 命题 的 真 值 。 


FOPC 中 最 重要 的 一 种 推理 是 “ 取 式 推理 ”(modus ponens) 。“ 取 式 
推理 ”是 关于 前 提 和 结论 关系 的 推理 ， 也 就 是 “if-then 推 理 *”， 定 义 如 下 : 


这 里 ，oc 和 人 都 是 FOPC 公 式 。 
例如 ， 


VegetarianRestaurant ( Sanchon ) 


VegetarianRestaurant (x) => Serves (x, VegetarianF ood ) 





Serves ( Sanchon, VegetarianFood ) 


在 这 个 取 式 推理 中 ， 公 式 “VegetarianRestaurant (Sanchon) ”是 前 
提 ， 根 据 取 式 推理 ， 我 们 可 以 得 出 结论 : "Serves (Sanchon, 
VegetarianFood) ”。 这 样 ， 我 们 就 从 “Sanchon 是 素食 饭馆 ”的 前 提 推 理 
出 “Sanchon 供 应 素食 ”的 结论 。 


在 实际 上 ， 我 们 可 以 从 两 方面 来 使 用 取 式 推理 :自前 癌 后 链接 
(forward chaining〉 和 自 后 向 前 链接 (backward chaining) 。 





一 一 自前 向 后 链接 : 使 用 自前 向 后 链接 方法 ， 当 一 个 单独 的 事实 加 
到 知识 库 中 的 时 候 ， 取 式 推 理 用 这 种 事实 来 激发 所 有 可 应 用 的 草 涵 规 
则 ， 使 得 每 当 一 个 新 的 事实 被 加 到 知识 库 中 ， 就 可 以 找到 并 应 用 所 有 可 
应 用 的 列 涵 规则 ， 这 样 ， 每 一 个 结论 都 把 新 的 事实 加 到 知识 库 中 ， 依 次 
Pede ue t MID. MD 它们 的 蕴涵 规则 ， 这 
个 过 程 继续 进行 到 没有 新 的 事实 可 以 被 推导 出 来 为 止 。 自 前 向 后 链接 方 
donus. ， 当 需要 的 时 候 ， 有 关 的 事实 必须 在 知识 库 中 表现 出 来 ， 因 
SEANAR, 所 有 的 推论 都 必须 事先 进行 ， 这 样 就 可 以 充分 地 减少 
回答 下 一 个 问题 所 需要 的 时 间 ， 因 为 这 时 只 需要 进行 简单 的 查询 就 可 以 
了 。 自 前 向 后 链接 方法 的 缺点 是 : 在 推理 过 程 中 所 引用 或 存储 的 事实 可 
能 是 以 后 永远 用 不 TH 产生 式 系统 (production system) 大 量 地 使 用 
认 知 模型 的 研究 成 果 ， 通 过 增加 控制 知识 的 方法 来 决定 所 要 激发 的 规 
则 ， 从 而 减少 了 那些 永远 用 不 上 的 事实 ， 提 高 了 自前 问 后 链接 方法 的 效 
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一 一 自 后 问 前 链接 : 在 上 自 后 同 前 链接 中 ， 取 式 推 理 按 相反 的 方 癌 目 
后 回 前 地 进行 ， 调 用 提问 来 证 明 特 定 的 命题 ， 可 以 分 两 步 进行 。 








QD 第 一 步 : 根据 提问 是 否 存 储 在 知识 库 中 来 判定 提问 公式 是 否 状 
真 。 如 果 提 问 不 在 知识 库 中 ， 那 么 ， 束 转 入 第 二 步 。 











DPP: 第 二 步 搜 索 在 知识 库 中 有 没有 可 应 用 的 强 涵 规则 。 如 果 
菏 一 条 规则 的 结论 部 分 与 提问 公式 相 匹 配 ， 那 么 ， 这 条 规则 就 是 可 应 用 
的 规则 ; 如果 存 在 着 任何 的 这 样 的 规则 ， 那 么 ， 提 问 就 被 证 明了 。 如 果 
把 前 提 作 为 一 个 新 的 提问 ， 那 么 ， 我 们 就 可 以 递归 地 进行 自 后 向 前 的 链 
接 。 





例如 ， 如 果 我 们 的 提问 是 “Does Sanchon serve the vegetarian 
food?”(Sanchon 饭 馆 是 不 是 供应 素食 ) ， 也 就 是 说 ， 我 们 想 要 证 实 下 面 
的 命题 : 





“Serves (Sanchon, VegetarianFood) ”， 





HH T3 are CE BATT A Pe AE, EA es EE EA J IRI BE Be 
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而 来 查询 取 式 推理 中 的 前 提 “VegetarianRestaurant (Sanchon) ”的 真实 
性 ， 由 于 这 个 事实 在 我 们 的 知识 库 中 是 存在 的 ， 因 此 ， 我 们 可 以 证 
明 “Serves (Sanchon, VegetarianFood) ”为 真 。 








这 种 目 后 回 前 推理 的 方法 是 从 已 知 的 结论 推出 未 知 的 前 担 。 如 果 结 
论 被 认为 是 正确 的 ， 那 么 ， 我 们 惑 假定 前 提 也 是 正确 的 。 


然而 ， 实 际 上 并 非 如 此 。 例 如 ， 如 果 我 们 知道 “Serves (Maru, 


VegetarianFood) ”， 也 就 是 “Maru 饭 馆 供 应 素食 ”， 这 个 事实 与 我 们 规则 
中 的 结论 是 匹配 的 ， 使 用 自 后 向 前 的 推理 ， 我 们 可 以 得 

出 “VegetarianRestaurant (Maru) ”， 也 就 是 说 , “Maru 是 素食 饭馆 *”。 但 
是 我 们 知道 ，Maru 是 一 个 日 本 饭馆 ， 它 除了 供应 系 食 之 外 ， 也 可 能 供应 
肉食 。 因 此 ，“VegetarianRestaurant (Maru) ”为 假 。 


可 见 ， 自 后 向 前 推理 的 方法 是 一 种 不 可 徘 的 推理 。 尺 管 这 种 不 可 靠 
推理 具有 推出 大 量 推论 的 能 力 ， 但 是 它 也 会 导致 一 些 似是而非 的 解释 和 
错误 的 理解 。 


这 类 推理 又 叫做 * 溯 因 推 理 ”(abduction) 。 渊 因 推 理 的 中 心 规则 
是 : 
a —p 
ER. 
a 
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子 ， 漳 因 推理 的 过 程 是 : 





» 
> 


" VegetarianRestaurant ( Maru )” =>“ Serves ( Maru, VegetarianFood ) 


"Serves ( Maru, VegetarianFood )” , 





" VegetarianRestaurant ( Maru )" 
显然 ， 这 可 能 是 一 个 不 正确 的 推理 ， 因 为 作为 日 本 饭馆 的 Maru 也 可 
能 供应 肉食 ， 这 样 ，Maru 就 不 是 一 个 素食 饭馆 了 。 





一 般 而 言 ， 一 个 给 定 的 结果 Bb 可 能 有 许多 潜在 的 原因 a， 。 我 们 从 一 
个 事实 所 要 的 并 不 仅仅 是 对 它 的 一 个 可 能 的 解释 ， 通 常 我 们 需要 对 它 的 
最 佳 解释 。 为 了 实现 这 个 目的 ， 我 们 需要 比较 可 选择 的 调 因 推理 的 品 
质 。 这 里 可 采用 各 式 各 样 的 策略 。 一 种 可 能 是 采用 概率 模型 ， 不 过 ， 使 








用 这 种 策略 在 选择 计算 概率 的 正确 空间 和 人 缺少 事件 语料库 时 获取 这 些 概 
率 的 方法 等 方面 会 出 现 一 些 问题 。 男 一 种 方法 是 利用 纯粹 的 局 发 式 集 
略 ， 比 如 优先 选择 假设 数目 最 少 的 解释 ， 或 选择 及 用 最 具体 输入 特征 的 
解释 。 尺 省 这 类 局 友 式 集 略 实现 起 来 非常 容易 ， 但 是 常常 过 于 脆弱 ， 功 
能 也 很 有 限 。 最 后 ， 也 可 以 采用 更 全 面 的 基于 代价 (cost-based) K 
略 ， 这 种 策略 把 概率 特征 《〈 既 包括 正 值 也 包括 负 值 ) 和 局 发 式 方法 结合 
起 来 。 

















5. 攻坚 与 语言 学 相关 的 概念 


(1) 语义 范畴 


具有 谓词 语义 的 单词 ， 它 们 的 论 元 经 党 以 选择 限制 形式 表现 出 优先 
性 。 这 些 选择 限制 的 典型 表示 是 采用 基于 语义 的 范畴 ， 这 种 范畴 “语义 
范畴 ”(semantic categories) ， 其 中 一 个 语义 范畴 的 所 有 成 员 共 享 一 套 
相关 的 特征 。 








表示 语义 范畴 的 方法 有 两 种 : 


一 一 一 元 谓词 方法 : 表示 语义 范畴 的 最 普通 的 方法 是 为 每 一 个 范畴 
造 出 一 个 一 元 谓词 。 这 样 的 谓词 可 以 对 每 一 个 有 关 的 语义 范畴 进行 说 
明 。 例 如 ， 在 关于 饭馆 的 讨论 中 ， 我 们 就 可 以 使 用 如 下 的 一 元 谓词 


VegetarianRestaurant: 





VegetarianRestaurant (Sanchon) 


对 于 每 一 个 已 知 的 素食 饭馆 ， 在 我 们 的 知识 库 中 都 有 一 个 相似 逻辑 


公式 。 





可 惜 的 是 ， 在 这 个 方法 中 ， 语 义 范 畴 表示 的 是 关系 ， 而 不 是 实 实在 
在 的 客体 。 因 此 ， 这 只 能 对 于 构成 这 个 关系 的 各 个 成 分 有 所 说 明 ， 而 很 
难 对 于 语义 范畴 本 身 有 所 说 明 。 例 如 ， 我 们 如 果 想 把 一 个 给 定语 义 范 畴 
的 “最 普通 的 成 员 ” 表 示 如 下 : 








MostPopular (Sanchon, VegetarianRestaurant) 





可 惜 这 不 是 一 个 合格 的 FOPC 公 式 ， 因 为 在 FOPC 中 的 谓词 必须 是 “项 ”， 
而 不 能 是 其 他 的 谓词 。 但 是 在 这 个 语义 范畴 表示 中 ， 
VegetarianRestaurant 是 一 个 谓词 ， 违 反 了 FOPC 公 式 的 规定 。 





一 一 个 别 化 方法 : 解决 这 个 问题 的 一 个 办 法 是 使 用 一 种 叫做 “个 别 
化 ”(reification〉 的 技术 把 我 们 想 表述 的 所 有 概念 都 表示 为 实 实在 在 的 
客体 。 例 如 ， 我 们 就 可 以 把 VegetarianRestaurant 这 个 范畴 表示 为 像 
Sanchon 这 样 的 实在 客体 。 这 样 一 来 ， 所 属性 概念 这 样 的 语义 范畴 就 可 
以 通过 所 属性 关系 表示 如 下 : 


ISA (Sanchon, VegetarianRestautant) 


这 个 记 为 ISA Cis a) 的 关系 在 客体 和 以 客体 为 成 员 的 语义 范畴 之 间 
是 成 立 的 ， 它 表示 Sanchon 这 个 客体 是 语义 范畴 VegetarianRestaurant 的 一 


个 成 员 。 


这 样 的 技术 也 可 以 通过 使 用 其 他 相似 关系 的 办 法 加 以 扩充 ， 使 它 能 
表达 范畴 的 层次 。 例 如 ， 


AKO CVegetarianRestaurant, Restaurant) 





这 里 ， 关 系 AKO (a kind of) 在 语义 范畴 之 间 成 立 ， 说明 语义 范畴 的 包 
含 关 系 ， 它 表示 VegetarianRestaurant 这 个 语义 范畴 是 包含 在 Restaurant 这 
个 语义 范畴 之 中 的 。 当 然 ， 为 了 真正 地 给 出 这 些 谓 词 的 意义 ， 吏 应 该 把 
语义 范畴 定义 为 集合 ， 并 把 这 些 谓词 放 到 更 大 的 集合 中 去 。 


(2) 事件 


我 们 使 用 事件 〈events) 来 表示 包括 一 个 单独 的 谓词 以 及 与 给 定 的 
例子 相 联系 的 角色 所 需要 的 多 个 论 元 。 例 如 ,，“Make a reservation for 
this evening for a table for two persons at 8 in Log-house Restaurant.” 这 个 事 
件 的 表示 包括 一 个 单独 的 谓词 Reservation 以 及 听话 人 在 预定 时 所 需要 的 
论 元 ， 如 饭馆 名 称 、 日 期 、 时 间 、 参 加 人 数 等 ， 如 下 所 示 : 


Reservation (Hearer, Log-house, Today, 8PM, 2) 








如 果 谓 词 是 动词 ， 这 种 方法 简单 地 假定 ， 表 示 动 词 意义 的 谓词 的 论 元 数 
目 与 该 动词 在 它 的 次 范畴 化 框 杂 中 押 表 现 出 来 的 论 元 数目 是 相同 的 。 








下 面 ， 我 们 来 集中 地 研究 与 动词 eat 有 关 的 下 面 的 例子 : 
(DI ate. 

OI ate a sandwich. 

(SI ate a sandwich at my desk. 

(DI ate at my desk. 

© ate lunch. 


(OT ate a sandwich for lunch. 


@) I ate a sandwich for lunch at my desk. 


显而易见 ， 


在 这 些 例子 中 ， 如 像 动词 eat 这 样 的 谓词 的 论 元 数目 是 可 


变 的 ， 这 束 给 我 们 提出 了 一 个 非常 环 手 的 问题 。 


下 面 我 们 来 研 完 解 决 这 个 棘手 问题 的 一 些 可 能 的 方法 。 


一 一 建立 次 范畴 化 框架 ; 为 动词 所 容许 的 每 一 种 论 元 的 格式 建立 一 
个 次 范畴 化 框架 ， 把 eating 分 别 设立 为 不 同 的 谓词 ， 用 来 处 理 动 词 eat 的 
各 种 可 能 的 行为 方式 。 用 这 样 的 方法 可 以 把 上 面 7 个 例子 表示 如 下 : 


Eating, 
Eating, 
Eating; 
Eating, 
Eatingz 
Eatingg 


Eating; 


( Speaker) 

(Speaker, Sandwich) 

(Speaker, Sandwich, Desk) 
(Speaker, Desk) 

(Speaker, Lunch) 

(Speaker, Sandwich, Lunch) 

( Speaker, Sandwich, Lunch, Desk) 





TESI BE ^ UGG HOMER EES RD E ES TO EN E, TR 0b T 
回避 了 谓词 ating 究 竟 有 多 少 个 论 元 的 问题 。 可 惜 的 是 ， 这 种 方法 的 代 
价 太 蜗 了 。 因 为 在 这 些 事 件 之 间 在 逻辑 上 存在 着 明显 的 关系 ， 而 这 种 方 
法 并 不 能 给 我 们 提供 任何 的 天 于 事件 之 间 的 这 种 关系。 其 体 地 说 ， 如 果 
例子 为 真 ， 则 其 他 的 例子 也 为 真 。 类 似 地 ， 如 果 例 子 @ 为 真 ， 则 例子 
QD、 避 和 加 也 为 真 。 但 是 ， 这 样 的 逻辑 联系 不 能 根据 这 些 谓 词 单独 地 做 


出 来 。 


一 一 建立 意义 假设 : 解决 这 些 问题 的 男 一 个 办 法 是 使 用 所 谓 的 “ 意 
义 假设 ”(meaning postulates) 。 我 们 来 研究 下 面 关 于 意义 假设 的 例子 : 





Vw, x, y, z Eating; (w, x,y,z) = Eating, (w, x,y) 


这 个 意义 假设 把 我 们 谓词 Eatingy 和 Eating6。 中 的 语义 联系 在 一 起 
了 。 建 立 其 他 的 意义 假设 可 以 用 来 处 理 不 同 的 Eating 的 其 他 逻辑 关系 ， 
并 且 把 它们 与 相关 的 观念 联系 起 来 。 





尽管 这 个 方法 在 小 的 领域 中 还 行 得 通 ， 但 是 ， 还 明显 地 存在 “规模 
WETE” (scalability) 问题 。 更 加 敏感 的 办 法 说 ， 从 例子 四 到 例子 @ 〇 全 
都 涉及 同样 的 谓词 ， 只 是 茶 些 论 元 在 表层 形式 中 消失 了 。 使 用 这 种 方法 
的 时 候 ， 很 多 的 论 元 都 被 包含 在 谓词 的 定义 中 ， 融 像 它 们 在 输入 中 出 现 
时 那样 。 例 如 ， 如 像 Eatingy 这 样 的 给 我 们 的 谓词 是 含有 4 个 论 元 的 ， 它 
Me: 吃 的 人 、 吃 的 东西 、 吃 的 哪 一 顿 饭 、 吃 的 地 点 。 下 面 的 公式 表现 
了 我 们 例子 的 语义 : 





zw, x, y Eating (Speaker, w, x, y) 

dw, x Eating (Speaker, Sandwich, w, x) 
dw Eating (Speaker, Sandwich, w, Desk) 
gw, x Eating (Speaker, x, w, Desk) 

gw, x Eating (Speaker, w, Lunch, x) 

dw Eating (Speaker, Sandwich, Lunch, w) 
J Eating (Speaker, Sandwich, Lunch, Desk) 








这 个 方法 直接 表示 出 这 些 公式 之 间 的 逻辑 联系 。 有 具体 地 说 ， 所 有 带 
有 论 元 项 的 句子 在 逻辑 上 都 包含 了 公式 的 真 值 ， 而 这 些 公 式 是 以 存在 量 
词 的 约束 变量 作为 论 元 的 。 





可 惜 的 是 ， 这 种 方法 至 少 有 两 个 明显 的 不 足 : 
第 一 ， 这 种 方法 的 负担 太 重 ; 


第 二 ， 这 种 方法 使 我 们 不 能 把 事件 个 性 化 。 





为 了 说 明 这 种 方法 为 什么 负担 过 重 ， 我 们 来 研究 例子 加 到 中 关于 
for lunch 这 个 补 语 的 处 理 方 式 ， 这 种 方法 把 for lunch 作 为 第 三 个 论 元 ， 
即 “ 吃 的 哪 一 顿 饭 >”， 加 到 谓词 Eating 中 。 这 样 的 表示 方法 使 得 我 们 对 于 
任何 的 Eating 事 件 都 必须 和 “ 吃 的 哪 一 顿 饭 ?联系 起 来 ， 也 就 是 说 ， 凡 是 
Eating 事 件 ， 都 必须 说 明 这 是 中 饭 、 午 饭 还 是 晚饭 。 更 加 具体 地 说 ， 在 
上 面 的 例子 中 ， 关 于 吃饭 (Eating) 的 论 元 的 存在 量词 变量 必须 在 形式 
上 都 和 “ 吃 的 哪 一 顿 饭 ?联系 起 来 。 这 种 做 法 显然 是 蚌 蠢 的， 因为 人 们 在 
吃 东 西 的 时 候 ， 不 一 定 都 要 说 明 这 是 哪 一 顿 饭 ， 因 为 人 们 也 可 以 在 早 
饭 、 中 饭 和 晚饭 的 时 间 之 外 进食 。 














为 了 看 出 这 种 方法 不 适合 于 处 理 个 性 化 的 事件 ， 我 们 来 研究 下 面 的 


AU 


dw, x Eating (Speaker, x, w, Desk) 
gw, x Eating (Speaker, w, Lunch, x) 
zw Eating (Speaker, w, Lunch, Desk) 


如 果 我 们 知道 前 面 两 个 公式 是 描述 的 同一 事件 ， 那 么 ， 就 可 以 把 它 
们 结合 起 来 造 出 第 三 个 表示 公式 。 可 惜 的 是 ， 使 用 当前 的 表示 公式 ， 我 
们 不 能 说 出 这 样 做 是 否 有 可 能 。I ate at my desk 和 I ate lunch 这 两 个 独立 
的 事实 不 容许 我 们 得 出 Iate lunch at my desk 的 结论 。 显 而 易 见 ， 我 们 还 
没有 引用 I ate lunch at my desk 这 个 事件 的 办 法 。 


一 一 事件 个 别 化 描述 : 我 们 可 以 使 用 语义 范畴 来 解决 这 个 问题 ， 这 
时 ， 我 们 应 用 “个 别 化 ”(reification〉 的 办 法 来 加 强 对 于 事件 的 描述 ， 使 
得 事件 成 为 能 够 量词 化 的 客体 ， 并 且 能 够 通过 定义 好 的 关系 与 其 他 的 客 
体 联系 起 来 。 使 用 这 样 的 方法 ， 我 们 来 研究 例子 巴 的 表示 。 


dw ISA (w, Eating) 


^ Eater (w, Speaker) ^ Eaten (w, Sandwich) 








这 样 的 表示 其 意思 是 : 存在 着 一 个 吃饭 的 事件 ， 其 中 ，Speaker 是 
吃饭 这 个 事件 的 行为 者 ，Sandwich 十 被 吃 的 东西 。 同 相似 的 方法 ， 我 们 
可 以 作出 例子 由 和 人 @@ 的 意义 表示 来 : 





dw ISA (w, Eating) ^ Eater (w, Speaker) 
dw ISA (w, Eating) 
^ Eater (w, Speaker) ^ Eaten (w, Sandwich) 


^ MealEaten (w, Lunch) 





这 种 事件 个 别 化 〈reified-event) 的 方法 有 如 下 特点 : 





e 对 于 一 个 给 定 的 表层 谓词 ， 不 需要 说 明 量词 的 确定 数目 ， 在 输入 
中 出 现 多 少 角色 和 填充 项 都 可 以 胶合 到 表层 谓词 中 来 。 


e 只 要 在 输入 中 提 到 角色 ， 不 需要 再 对 角色 进行 意义 假设 。 





e 在 有 密切 联系 的 例子 之 间 ， 只 要 使 用 逻辑 连接 词 就 可 以 满足 把 它 
们 连接 起 来 的 要 求 ， 不 再 需要 意义 假设 。 


(3) 时 间 的 形式 表示 


WEE (temporal logic) 和 时 态 逻 辑 (tense logic) 从 语义 的 角度 


对 时 间 进 行 形式 化 的 表示 。 关 于 时 间 的 最 简单 的 理论 认为 ， 时 间 是 一 直 
向 前 地 流动 的 ， 事 件 与 时 间 线 〈timeline) 上 的 一 个 点 或 者 一 个 片段 相 
联系 。 根 据 这 样 的 概念 ， 可 以 把 不 同 的 事件 放 在 这 个 时 间 线 上 ， 从 而 形 
成 事件 的 顺序 。 如 宁 时 间 流 把 第 一 个 事件 引导 到 第 二 个 事件 ， 我 们 就 说 
第 一 个 事件 先 于 (precedes) 第 二 个 事件 。 在 大 多 数 关 于 时 间 的 理论 
中 ， 还 有 在 时 间 中 的 当前 时 刻 的 概念 。 把 这 些 概念 与 时 间 顺 序 的 概念 结 
合 起 来 ， 就 产生 了 我 们 所 熟知 的 关于 现在 、 过 去 和 将 来 的 概念 。 





例如 ， 


I arrived in Seoul. 
I am arriving in Seoul. 


I will arrive in Seoul. 





如 果 不 考虑 时 间 方 面 的 信息 ， 这 3 个 句子 部 可 以 表示 为 如 下 的 FOPC 公 
式 : 


3 w ISA (w, Arriving) 


^ Arriver (w, Speaker) ^ Destination (w, Seoul) 


这 个 FOPC 公 式 说 明 ， 存 在 着 一 个 Arriving 的 事件 w，w 的 到 达 者 
(Arriver) 是 说 话 人 〈Speaker) ，w 的 方向 〈Destination ) 是 Seoul。 





不 过 ， 根 据 句 子 中 动词 的 时 态 ， 我 们 还 可 以 给 上 面 的 表示 事件 的 变 
量 w 增 加 关于 时 间 的 信息 。 我 们 可 以 提出 表示 事件 的 “时 间 间 
隔 ”(interval〉 的 变量 i， 还 可 以 提出 事件 的 “时 间 终 点 ”(end of point) 
的 变量 e， 这 样 ， 对 于 上 面 得 个 句子 ， 我 们 就 分 别 地 可 以 得 到 如 下 的 表 
达 式 : 


J i, e, w ISA (w, Arriving) 

^ Arriver (w, Speaker) A Destination (w, Seoul) 

^ IntervalOf (w, i) ^ EndPoint (i, e) ^ Precedes (e, ^ 
J i, e, w ISA (w, Arriving) 

^ Arriver (w, Speaker) ^ Destination (w, Seoul) 

^ IntervalOf (w, i) ^ MemberOf (i, Now) 
3 i, e, w ISA (w, Arriving) 

^ Arriver (w, Speaker) A Destination (w, Seoul) 


^ IntervalOf (w, i) ^ EndPoint (i, e) ^ Precedes (Now, 








FEIK HER IASUH, Beer i? RANTS FYI TJ TAR, Se “Ce” Ze aN 
时 间 间 隔 的 终点 ， 二 元 谓词 “precedes” 表 示 第 一 个 时 间 点 论 元 前 于 第 二 
个 时 间 点 论 元 ， 常 量 “now” 表 示 当 前 时 间 。 我 们 根据 时 间 线 的 前 后 顺 
序 ， 束 可 以 描述 “过 去 、 将 来 和 现在 ”等 时 间 概 念 : 对 于 过 去 的 事件 ， 时 
间 间 隔 的 终点 前 于 当前 时 间 “Now”， 也 就 是 说 ， 过 去 的 事件 发 生 在 当前 
时 间 之 前 ， 表 示 为 Precedes Ce, Now) ; 对 于 将 来 的 事件 ， 当 前 时 
间 “Now” 前 于 事件 的 终点 ， 也 就 是 说 ， 将 来 的 事件 发 生 在 当前 时 间 之 
后 ， 表 示 为 Precedes (Now, e); 对 于 现在 发 生 的 事件 ， 当 前 时 间 包 含 
在 事件 的 时 间 间 隔 之 内 ， 表 示 为 MemberOf (i, Now) 。 











为 了 表示 英语 中 的 完成 时 态 ， 雷 申 巴赫 (Reichenbach) 提出 了 “ 参 
照 点 ”(reference point) 的 概念 。 他 把 言语 行为 中 的 时 间 分 为 发 话 时 间 
Cutterance time， 记 为 U) 、 事 件 时 间 Cevent time， 记 为 E) 和 参照 点 
(reference point， 记 为 R) ， 使 用 参照 点 来 描述 完成 时 态 。 


例如 ， 


When John's flight departed, I ate lunch. 


When John's flight departed, I had eaten lunch. 


简单 过 去 时 过 去 完成 时 
When John’s flight departed, I ate. When John’s flight departed, I had eaten. 
R,E U E R U 














图 8.4 简单 过 去 时 和 过 去 完成 时 的 表示 方法 











英语 中 还 有 现在 完成 时 Cpresent perfec 、 现 在 时 Cpresent) 、 简 
单 将 来 时 (simple future) 、 将 来 完成 时 (future perfect) 。 例 如 ， 


In the time John's flight departed, I have eaten.〈 现 在 完成 时 ) 
When John's flight departed, I eat.( 现 在 时 ) 

When John's flight departs, I will eat.〈 简 单 将 来 时 ) 

When John's flight departed, I will have eaten. (将 来 完成 时 ) 


我 们 也 可 以 使 用 雷 申 巴赫 的 方法 来 表示 这 些 时 态 。 


下 面 是 用 雷 申 巴赫 的 方法 来 表示 的 各 种 英语 时 态 〈 例 句 中 都 省 去 
了 “When John's flight departed” 等 表示 参照 点 的 从 句 ) : 


过 去 完成 时 简单 过 去 时 现在 完成 时 
I had eaten I ate I have eaten 
E R U R,E U E R,U 
现在 时 简单 将 来 时 将 来 完成 时 
I eat I will eat I will have eaten 
U,R,E U,R E U E R 


图 8.5 ”英语 时 态 表示 法 





(4) 信念 的 形式 表示 


语言 中 有 的 单词 是 表示 人 的 信念 (believe) HJ. Id, “believe, 
want, know, imagine” 等 。 sie MARTE 定 是 客观 存在 的 现 
实 ， 而 是 说 话 人 主观 的 想象 ， 是 说 话 人 上 自己 创造 的 世界 。 所 以 ， 这 些 单 
词 具有 创造 世界 的 能 力 ， 当 然 ， 它 们 创造 的 世界 是 一 个 假想 的 世界 ， 而 
不 是 现实 的 世界 。 











在 FOPC 的 公式 中 ， 这 些 表示 信念 的 单词 一 般 都 使 用 类 似 于 句子 那 
样 的 成 分 作为 论 元 。 例 如 ， 


Ibelieve that Mary ate Japanese food. 


其 中 ，believe 是 表示 信念 的 单词 ， 它 的 论 元 是 Mary ate Japanese 
food. 





在 这 个 句子 中 有 两 个 事件 : 一 个 事件 表示 说 话 者 具有 某 个 特殊 的 信 
念 ， 记 为 Believing， 另 一 个 事件 表示 这 个 信念 的 内 容 *Mary ate Japanese 
food”， 记 为 Eating。 使 用 个 别 化 的 方法 ， 我 们 可 以 把 这 个 句子 的 FOPC 
公式 表示 如 下 : 


g u, v ISA (u, Believing) ^ ISA (v, Eating) 
^ Believer (u, Speaker) ^ BelievedProp (u, v) 


^ Eater (v, Mary) ^ Eaten (v, JapaneseFood) 


这 个 FOPC 公 式 中 有 u 和 v 两 个 变量 ，u 代 表 事 件 Believing，v 代 表 事 
件 Eating，u 的 信念 者 (Believer) Æ Wiii A (Speaker) ，u 的 信念 命题 
(BelievedProp) 是 v，v 的 吃饭 者 (Eater) 是 Mary，v 的 被 吃 者 
(Eaten) 是 JapaneseFood， 这 些 信息 以 连接 词 “ 人 ”相互 连接 ， 显 而 易 
见 ， 只 有 在 每 一 个 连接 项 目 都 为 真 的 时 候 ， 整 个 句子 才 为 真 ， 也 就 是 
说 ，Mary 在 事实 上 必须 真正 吃 过 日 本 食品 。 然 而 ， 整 个 句子 的 意思 只 是 











表示 一 个 信念 ， 这 个 信念 不 一 定 束 是 事实 。 所 以 ， 这 个 FOPC 是 有 问题 
的 ， 是 不 能 成 立 的 。 


为 了 解决 这 个 问题 ， 我 们 可 以 引入 一 个 新 的 算 子 (operator) , MY 
做 “信念 算 子 ”(Believed) ， 这 个 算 子 以 两 个 FOPC 公 式 作为 它 的 论 元 : 
一 个 公式 描述 信念 者 ， 一 个 公式 描述 所 信念 的 命题 。 使 用 这 样 的 信念 全 
子 ， 我 们 可 以 得 到 如 下 的 FOPC 表 达 式 : 


Believes (Speaker, 3 v ISA (v, Eating) A^ Eater (v, Mary) A 


Eaten (v, JapaneseFood) ) 


在 这 个 FOPC 公 式 中 ，Believes 不 再 是 一 个 事件 ， 而 是 一 个 算 子 ， 这 
个 算 子 的 信念 者 是 说 话 人 《〈Speaker) ， 这 个 算 子 的 信念 内 容 就 是 说 话 
人 所 相信 的 命题 “3 v ISA (v, Eating) A Eater (v, Mary) ^ 


Eaten (v, JapaneseFood) ". 





在 逻辑 公式 中 使 用 的 如 像 “Believes” 这 样 的 算 子 ， 叫 做 “ 模 态 算 
子 ”(modal operator) ， 使 用 这 样 的 算 子 来 加 强 的 逻辑 叫做 “ 模 态 逻 
t” (modal logic) 。 在 自然 语言 处 理 中 ， 我 们 经 常 使 用 模 态 逻辑 来 进行 
常识 (commonsense knowledge) 的 形式 化 表示 。 





第 二 证 ”意义 的 其 他 三 种 形式 化 表 
示 方 法 的 进一步 说 明 


除了 FOPC 之 外 ， 表 示意 义 的 形式 化 方法 还 有 语义 网 络 、 概 念 依存 
图 和 框架 表示 法 三 种 。 本 市 对 这 种 三 种 表示 方法 进一步 加 以 说 明 。 





1. 语义 网 络 





由 联想 关系 构成 的 语义 场 叫 做 联想 场 ， 它 反映 了 词义 与 词义 之 间 的 
动态 的 组 合 关 系 。 这 种 组 合 关 系 ， 可 以 通过 语义 网 络 (semantic 
network) 来 描述 。 由 于 语义 的 内 容 就 是 概念 的 内 容 ， 因 此 ， 在 语义 网 
络 中 ， 束 直接 用 概念 来 表示 词义 。 


语义 网 络 是 1968 年 由 美国 心理 学 家 奎 尼 安 CR， Quillian) 研究 人 类 
联想 记忆 时 提出 的 。1972 年 ， 美 国人 工 智能 专家 西蒙 斯 CR. F. 
Simmons) 和 斯 乐 康 (J. Slocum) 首先 将 语义 网 络 用 于 自然 语言 理解 系 
统 中 。1977 年 ， 美 国人 工 智 能 学 者 享 德里 殉 斯 CG. Hendrix) 提出 了 分 
块 语义 网 络 的 思想 ， 把 语义 的 逻辑 表示 与 “ 格 语法 ”(case grammar) Zi 
合 起 来 ， 把 复杂 问题 分 解 为 较为 看 干 个 简单 的 子 问题 ， 每 一 个 子 问 题 以 
一 个 语义 网 络 表示 ， 可 进行 自然 语言 理解 中 的 各 种 复杂 的 推理 ， 把 上 自然 
语言 理解 的 研究 回 前 大 大 推进 了 一 步 。 











语义 网 络 可 用 有 同 图 线 来 表示 。 一 个 语义 网 络 就 是 由 一 些 以 有 辣 图 
线 表 示 的 三 元 组 


〈 结 点 1， 图 线 ， 结 点 2) 
连接 而 成 的 。 


结 点 表示 概念 ， 图 线 是 有 方向 的 、 有 标记 的 。 在 三 元 组 中 ， 图 线 由 
结 点 1 指 同 结 点 2， 结 点 1 为 主 ， 结 点 2 为 辅 ， 图 线 的 方向 体现 了 主 次 ， 图 
线 上 的 标记 表示 结 点 1 的 属性 或 结 点 1 与 结 点 2 之 间 的 关系 。 








语义 网 络 中 的 一 个 三 元 组 可 图 示 如 下 : 


R 
B 


图 8.6 ”三 元 组 的 表示 法 





这 样 ， 由 知 干 个 三 元 组 构成 的 语义 网 络 就 可 表示 为 : 





图 8.7 语义 网 络 


从 逻辑 表示 的 方法 来 看 ， 语 义 网 络 中 的 一 个 三 元 组 相当 于 一 个 二 元 
谓词 ， 因 此 ， 三 元 组 


( 结 点 1， 图 线 ， 结 点 2) 


可 写成 二 元 谓词 
P〔 个 体 1， 个 体 2) 


其 中 ， 个 体 1 对 应 于 结 点 1， 个 体 2 对 应 于 结 点 2， 而 图 线 及 其 上 面 表 示 结 
点 1 与 结 点 2 之 间 的 关系 的 标记 由 谓词 来 体现 。 





这 样 一 来 ， 一 个 由 知 干 个 三 元 组 构成 的 语义 网 络 就 相当 于 一 组 二 元 


谓词 。 


我 们 可 以 把 语义 网 络 看 成 一 种 知识 的 单位 。 人 脑 的 记忆 是 通过 存 贮 
大 量 的 语义 网 络 来 实现 的 。 


在 人 工 智 能 中 ， 语 义 网 络 内 各 个 概念 之 间 的 关系 ， 主 要 由 ISA， 
PART-OF, IS 等 谓词 来 表示 。 


谓词 ISA 表 示 “ 种 一 属 关 系 ”， “种 概念 ”隶属 于 “ 属 概念 ”， 因 此 ，ISA 
是 一 种 隶属 关系 ， 它 体现 为 某 种 层次 分 类 ， 种 概念 层 的 结 点 可 继承 属 概 
念 层 结 点 的 属性 。 谓 词 ISA 表 示 的 “种 一 属 ” 关 系 也 可 以 看 成 是 一 种 “具体 
一 抽象 ”关系 ， 有 具体 概念 隶属 于 某 个 抽象 概念 。 





例如 ,“ 鱼 是 一 种 动物 ”这 一 命题 可 表示 为 


图 8.8 ”种 一 属 关 系 





动物 具有 “会 动 、 吃 食物 、 要 呼吸 "等 属性 ， 鱼 也 具有 “会 动 、 吃 食 
物 、 要 呼吸 "等 属性 。 此 外 ， 鱼 还 具有 “用 鳃 呼吸 、 水 中 生活 、 有 鳍 "等 
特殊 的 属性 ， 而 有 的 动物 就 不 具有 这 些 属性 。“ 鱼 ”是 种 概念 层 的 结 














扩 ，“ 动 物 ” 是 属 概 念 层 的 结 点 。 这 说 明 ， 种 概念 层 的 结 扣 可 以 继承 属 概 
念 层 的 结 点 的 属性 ， 及 之 不 然 ， 这 就 是 ISA 关 系 中 的 “属性 继承 规则 ”。 


AU, “学生 是 人 ”这 一 命题 可 以 表示 为 


| 学生 | m ISA [^| 


图 8.9 种 一 属 关 系 





人 具有 “能 制造 工具 、 能 使 用 工具 、 能 进行 劳动 、 高 等 动物 "等 属 
性 ， 因 此 ， 学 生 也 具有 “能 制造 工具 、 能 使 用 工具 、 能 进行 劳动 、 高 等 
动物 "等 属性 ， 此 外 ， 学 生还 具有 “在 学 校 读书 "的 特性 ， 而 其 他 的 人 不 
一 定 具 有 这 样 的 特性 。 这 一 命题 显然 也 遵循 着 ISA 关 系 中 的 “属性 继承 规 
ju". 








谓词 PART-OF 表 示 “ 整 体 一 构件 关系， 构件 包含 于 整体 之 中 ， 
此 ，PART-OF 也 是 一 种 包含 关系 。 在 PART-OF 关 系 中 ， 下 层 结 点 不 能 
继承 上 层 结 点 的 属性 ，ISA 关 系 中 的 “属性 继承 规则 ”， 在 PART-OF 关 系 
中 是 不 能 成 立 的 。 


例如 , “车 轮 是 汽车 的 一 部 分 "这 个 命题 ， 可 以 表示 为 : 


PART-OF : 
«x 


图 8.10 ”整体 一 构件 关系 








其 中 ,“ 和 车轮? 不 一 定 具 有 “汽车 ”的 某 些 属性 。 


又 如 ,，“ 增 上 有 黑板 ”这 个 命题 ， 可 以 表示 为 : 


E PART-OF m 


图 8.11 整体 一 构件 关系 





在 这 种 整体 一 构件 关系 中 ， 黑 板 的 属性 与 墙 的 属性 几乎 野 无 共同 之 








请 词 IS 用 于 表示 一 个 结 点 是 妨 一 个 结 反 的 属性 。 





例如 ,， “奥斯陆 是 挪威 首都 ”> 这 个 命题 ， 可 以 表示 为 : 


图 8.12 IS 关系 





又 如 ,“ 小 刘 陷 明 过 人 ”这 个 命题 ， 可 以 表示 为 : 


IS Tem 
小 刘 聪明 过 人 


图 8.13 IS 关系 





结 点 与 结 点 之 间 的 关系 是 多 种 多 样 的 。ISA, PART-OF 和 IS 只 是 三 种 
最 常见 的 关系 。 对 于 自然 语言 的 计算 机 处 理 来 说 ， 这 三 种 关系 是 远 远 不 
够 的 。 








如 上 所 述 ， 语 义 网 络 是 由 一 组 二 元 谓词 构成 的 ， 它 可 表示 一 个 事件 
Cevent) 。 事 件 是 由 和 若干 个 概念 组 合 所 反映 的 客观 现实 ， 它 可 以 分 为 撤 
述 性 事件 、 描 述 性 事件 和 表述 性 事件 3 种 。 当 用 语义 网 络 来 表述 事件 
时 ， 语 义 网 络 中 结 点 之 间 的 关系 ， 还 可 以 有 施 事 (AGENT) 、 受 事 
(PATIENT) 、 位 置 (LOCATION) 、 时 间 (TIME) 等 。 








例如 ,“ 张 忠 帮 助 王 林 ” 这 一 事件 可 以 表示 为 : 




















图 8.14 事件 的 表示 


如 果 知 道 张 忠 是 老师 ， 王 林 是 学 生 ， 那 么 ， 语 义 网 络 可 更 加 细致 地 
表示 如 下 : 











图 8.15 事件 更 细致 的 表示 


语义 网 络 系统 的 推理 机 制 一 般 基 于 网 络 的 匹配 。 根 据 提 出 的 问题 可 
构成 局 部 网 络 ， 其 中 的 变量 代表 待 求 客 体 。 碍 询 解 答 的 过 程 就 是 查询 局 
部 网 络 到 网 络 知识 库 的 匹配 操作 ， 辱 匹配 成 功 ， 则 输出 变量 所 得 的 玲 换 
EKSE”, 匹配 不 成 功 则 输出 “ 否 ”。 


例如 ， 在 语义 网 络 知识 库 中 存 贮 了 事件 “ 张 忠 帮助 王 林 ”， 碍 询 的 目 
的 是 “ 张 忠 帮 助 谁 ? ”， 根 据 图 8.14 中 的 网 络 进行 匹配 ， 结 果 匹 配 得 到 成 
功 ， 得 到 变量 的 蔡 换 值 为 “ 王 林 ”， 即 “ 谁 = 王 林 ”。 








把 语义 网 络 的 理论 和 方法 运用 于 汉语 的 上 自动 处 理 ， 有 必要 根据 汉语 
的 特点 ， 对 于 二 元 谓词 中 的 谓词 作 深 入 的 研究 ， 充 分 地 揭示 汉语 中 的 语 


MRA» 


东北 工学 院 刘 东 立 、 姚 天 顺 等 提出 了 汉语 目 动 分 析 中 的 语义 关系 
集 ， 定 义 如 下 《每 个 关系 都 用 大 写 喘 文字 母 串 来 表示 ， 括 号 内 注 明 其 中 


AGT WF) : 目 沉 行为 的 发 出 者 ， 意 志 活 动 的 主体 ， 该 行为 和 活 
动 影响 茶 个 客体 。 


ATT (属性 ) : 某 客体 的 属性 ， 它 不 是 物体 而 是 物体 的 内 涵 。 
BEL (ESO : 事件 中 主体 所 领 有 的 人 或 事物 。 
CAS (条 件 ) : 影响 事件 是 否 发 生 或 发 展 的 条 件 。 








CAA 假设 条 件 ) : 一 种 假设 的 条 件 ， 用 来 表示 命题 的 必要 前 提 。 





CAU (促使 ): 某 动 作 或 状态 发 生 的 原因 或 起 因 者 。 
DAT C535 : 事件 中 有 利益 或 损失 的 间接 客体 。 

DET 限定 〉: 事件 中 主体 的 限定 者 。 

DST (AR) : 事件 中 活动 所 抵达 的 终结 点 。 

DUR (HE) : 事件 发 生 从 开始 到 结束 所 持续 的 时 间 段 。 
EXP (4) : 经 历 变化 、 获 知客 事 和 呈现 状 的 主体 。 
EXT (CZF) : 事件 中 活动 所 涉及 但 不 受 支 配 的 外 在 客体 。 
LOC GEIT) : 发 生动 作 或 状态 的 处 所 。 





MEA (FB): 为 达到 东 一 目的 而 采用 的 方法 、 手 段 、 或 具体 措 





MOD (修饰 ) : 某 一 动词 或 形容 词 的 修饰 。 


NUM (数值 ) : 某 物 体 的 数字 部 分 。 





OBJ《〈 受 事 ) : 事件 和 活动 中 受 文 配 或 对 待 的 既 存 的 直接 客体 。 
ORG (起 源 ) : 事件 中 活动 的 起 点 或 变化 前 的 状态 。 








POS 领事 ) : 事件 中 领 有 关系 或 隶属 关系 的 个 体 。 





QNT (te) : 事物 与 数量 的 关系 。 

REA (SR) : 事件 中 进行 比较 或 测量 所 参照 的 间接 客体 。 
SCP ED : 事件 所 涉及 的 领域 或 范围 。 

SIT (fa) : 事件 发 生 的 场合 或 处 境 。 

VAL《〈 属 性 值 ) : 属性 ATT 的 值 。 


例如 ,“ 这 位 老师 去 北京 ?这 个 句子 的 语义 网 络 是 : 





图 8.16 语义 网 络 








“他 因 画 素 而 休息 了 ”这 个 句子 的 语义 网 络 如 下 : 





图 8.17 语义 网 络 








“陈景润 从 事 数 学 研究 ”这 个 句子 的 语义 网 络 如 下 : 


P ecd 








图 8.18 ”语义 网 络 





他 们 在 汉 英 机 器 翻译 系统 CETRAN 中 采用 了 上 述 语义 关系 ， 对 于 同 
一 类 关系 ， 还 可 进一步 描述 其 下 位 属性 ， 如 果 在 分 析 过 程 中 发 现 不 够 ， 
只 要 系统 提供 的 存 贮 空间 允许 ， 还 可 以 由 系统 程序 员 添 加 下 位 属性 。 实 
际 运 行 表 明 ， 这 一 个 复杂 的 语义 关系 集 是 行 之 有 效 的 。 


河南 财经 学 院 人 工 智 能 研究 室 鲁 川 等 提出 的 语义 网 络 如 下 《每 个 关 
系 用 汉字 表示 ， 括 号 内 注 明 其 灿 文 含义 ) : 


施 事 〈Agent) : 发 出 可 控 活动 的 主体 。 


当 事 (Experiencer) : 非 可 控 活 动 、 非 可 控 状 态 的 主体 或 自身 变化 
的 主体 。 


Hot (Essive) : 类 属 关 系 的 主体 或 比喻 关系 的 本 体 。 

WME (Genitive) : 领 有 关系 的 主体 或 包括 关系 的 整体 。 
受 事 (Patient) : 支配 性 活动 所 处 置 或 控制 的 直接 客体 。 
7f (Content) : 关 涉 性 活动 所 传递 或 感受 的 客体 内 容 。 


对 
m 


BR (Product) : 创造 性 活动 所 创作 或 建造 的 新 生 客体 。 
AR (Goal) : 活动 所 对 符 或 天 涉 的 间接 客体 。 


类 事 (Category) : 类 属 关 系 的 类 别 ， 类 似 或 比喻 关系 的 喻 体 。 





限定 (Determiner) : 限定 关系 中 的 限定 者 。 





DE (Part) : 包括 关系 中 的 组 成 部 分 或 构成 部 分 。 
数量 〈Quantifier) : 数量 关系 中 的 物 量 。 

伴随 (Companion) : 事件 中 伴随 者 。 

HERR (Exception) : 事件 中 的 排除 者 。 





参照 (Reference) : 事件 中 比较 或 测量 的 参照 者 。 
YEE] (Scope) : 事件 中 所 关 涉 的 方面 或 领域 。 
JAB] (Cause) : 引起 事件 发 生 或 及 展 的 原因 。 
依据 (Basis) : 事件 中 所 但 照 或 依 徘 的 凭据 。 
Hf] (Purpose) : 事件 所 要 达到 的 目的 。 


ZUR (Effect) : 事件 所 造成 的 结局 或 效果 。 

FI (Manner) : 事件 中 的 态度 、 方 法 、 形 式 或 状况 。 
工具 〈Instrument) : 事件 中 所 用 的 器 具 、 设 备 或 人 力 。 
材料 CMaterial) : 事件 中 所 消耗 的 原料 、 能 源 或 资金 。 
程度 (Degree) : 事件 中 所 达到 的 水 平 或 状态 及 情感 的 程度 。 
时 间 (Time) : 事件 发 生 的 时 点 。 

期 间 (Period) : 事件 起 止 的 时 段 。 

AGA (Duration) : 事件 延续 的 时 量 。 

频 度 (Frequence) : 事件 中 活动 或 变化 的 重复 及 其 次 数 。 
处 所 Location〉: 事件 发 生 的 处 境 或 场所 。 





起 源 〈Source) : 事件 中 的 起 点 、 来 源 或 原来 的 状态 。 
HR (Route) : 事件 所 经 过 的 路 途 或 过 程 。 

趋向 (Direction) : 事件 中 的 方向 、 进 程 或 终点 。 
例如 , “他 抽烟 斗 * 这 个 句子 ， 其 语义 网 络 为 : 





图 8.19 ”语义 网 络 











“数学 小 王 考 一 百 分 ” 这 个 句子 的 语义 网 络 是 : 





图 8.20 ”语义 网 络 








“昨天 小 王 高 兴 地 唱 了 一 文 歌 ”* 这 个 句子 的 语义 网 络 是 : 





图 8.21 语义 网 络 











根据 汉语 复合 句 中 各 个 分 句 之 间 的 关系 ， 他 们 还 提出 了 如 下 的 关于 
事件 之 间 的 关系 : 





先行 (Antecedent〉: 在 时 间 上 或 事理 上 发 生 在 前 的 先行 事件 。 


后 继 〈Succedent) : 在 时 间 上 接续 先行 事件 的 后 继 事件 。 





GE (Progression) : 在 某 一 方面 比 先行 事件 更 进一步 的 后 继 事 
件 。 


转折 CAdverse) : 不 顺 厦 先行 事件 方向 发 展 的 转折 性 事件 。 





原因 (Cause) : 造成 条 种 结果 或 导致 男 一 事件 的 引发 性 事件 。 
结果 (Result〉: 由 于 某 种 结果 或 条 件 所 造成 的 结局 性 事件 。 
TEM: CInference) : 根据 菏 种 原因 或 假设 而 得 出 的 推 靳 性 事件 。 


条 件 (Condition) : 影响 事件 进展 的 、 必 要 的 或 充分 的 前 提 性 事 
件 。 


假设 (Assumption) : 为 了 对 事件 进展 有 所 推断 而 提出 的 假设 性 事 
件 。 


让 步 (Concession) : 为 了 跟 转 折 性 事件 形成 对 比 而 提出 的 让 步 性 
事件 。 





手段 (Means) : 为 了 达到 某 种 目的 而 采取 的 措施 性 事件 。 





HY (Purpose) : 通过 某 些 手段 而 要 达到 的 目标 性 事件 。 





舍弃 (Abandonment) : 为 了 选取 更 有 利 的 事件 而 舍弃 的 男 一 可 选 
性 事件 。 


选取 (Preference) : 舍弃 一 可 选 性 事件 而 选取 的 更 有 利 的 可 选 性 
事件 。 


根据 这 些 关 系 ， 可 以 建立 复合 句 的 语义 网 络 。 


例如 , “足球 队 训练 人 刻苦， 为 的 是 夺取 冠军 ?这 个 复合 句 的 语义 网 络 
如 下 : 


方式 








目的 受 事 


图 8.22 ”复合 句 的 语义 网 络 





这 样 建立 的 语义 网 络 ， 在 双语 言 或 多 语言 的 机 器 翻译 系统 中 ， 可 以 
作为 原 语 和 译 语 之 间 的 一 种 “中 介 语 言 ”(Imterlingua) ， 在 机 堪 翻 译 过 
程 中 ， 首 先 输入 原文 的 线性 序列 ， 然 后 把 它 分 析 为 原文 的 语义 网 络 ， 再 
转换 为 译文 的 语义 网 络 ， 最 后 生成 译文 的 线性 序列 。 


2. 概念 依存 图 


1973 年 ， 尚 元 提出 了 概念 依存 理论 (Conceptual Dependency 
Theory， 人 简称 CD 理论 ) ， 用 于 摘 述 自然 语言 中 短语 和 人 句子 的 意义 。 疯 
元 使 用 概念 依存 理论 设计 了 一 个 德 瑞 机 器 翻译 系统 。 





概念 依存 理论 主张 句法 、 语 义 和 推 理 相互 融合 的 一 体 化 
(Integrated) 处 理 模型 ， 这 种 模型 更 接近 于 人 对 自然 语言 理解 的 过 程 ， 
由 于 在 处 理 的 最 初 阶段 就 综合 运用 了 包括 语言 学 知识 和 关于 外 部 世界 的 

常识 在 内 的 各 种 知识 ， 处 理 效率 比较 高 。 


概念 依存 理论 有 3 条 重要 的 原理 : 





第 一 ， 对 于 任何 两 个 意义 相同 的 句子 ， 不 管 这 两 个 句子 属于 什么 语 
言 ， 在 概念 依存 理论 中 ， 它 们 的 语义 表达 式 只 有 一 个 。 


早 在 1949 年 ， 美 国 党 元 菲 勒 基金 会 的 副 总 裁 书 弗 (W. Weaver) 在 
讨论 机 器 翻译 的 时 候 束 提出 ， 当 机器 把 语言 A 翻译 为 语言 B 的 时 候 ， 可 
以 从 语言 A 出 发 ， 通 过 一 种 中 间 语 言 (Interlingua)， 然 后 再 转换 为 语言 
B， 这 种 中 间 语 言 是 全 人 类 共同 的 。 尚 元 继承 了 韦 弗 的 这 种 思想 。 


第 二 ， 绚 涵 在 一 个 句子 中 的 任何 为 理解 所 必须 的 信息 都 应 该 在 概念 
依存 理论 中 得 到 显 式 的 表达 。 


这 样 的 显 式 表达 一 般 使 用 概念 依存 表达 式 。 概 念 依存 表达 式 由 数量 
有 限 的 若干 个 语义 基 元 (semantice primitive) 组成， 这 些 语义 基 元 可 以 
分 为 基本 行为 和 基本 状态 两 种 。 





——PTRANS: 物体 的 物理 位 置 的 转移 。 例 如 ，go〈 去 ) 就 是 行为 
者 自己 要 进行 PTRANS， 也 就 是 PTRANS 自 身 到 某 处 ，put OO. 一 个 物 
体 在 某 处 ， 就 是 为 了 把 是 一 件 物体 PTRANS 到 某 处 。 


——ATRANS: 占有 、 物 主 或 控制 等 抽象 关系 的 转移 。 例 如 ， 
give (44) 就 是 占有 关系 或 所 有 权 的 ATRANS， 也 就 是 把 某 物 ATRANS 
AA, take (£) 就 是 把 某 物 ATRANS 给 自己 ，buy( 买 ) 是 由 两 个 互 
为 因果 的 概念 构成 的 ， 一 个 是 钱 的 ATRANS， 一 个 是 商品 的 ATRANS。 





——INGEST: 使 某 种 东西 进入 一 个 动物 的 体内 。INGEST 的 宾语 通 
和 是 食物 、 流 体 或 气体 。 例 如 ，eat (MZ) , drink (My) , smoke (ili 
AR? ,breathe CEW) 等 都 是 INGEST。 


— PROPEL: 在 某 物 上 使 用 体力 。 例 如 ，push GE) , pull G) , 
kick (2) 都 是 PROPEL 。 





——MTRANS: 人 与 人 之 间或 者 在 一 个 人 身上 的 精神 信息 的 转移 。 
例如 ，tell (告诉 ) 是 人 们 之 间 的 MTRANS，see CE) 则 是 个 人 内 部 从 
眼睛 到 大 脑 的 MTRANS， 类 似 的 还 有 remember( 回 忆 〉、forget( 访 
Ww) . lean (学习) 等 。 





——MBUILD: 人 根据 旧 信 息 加 工 成 新 信息 。 例 如 ，decide〈 决 
XE) , conclude (得 出 结论 ) , imagine 〈 想 象 ) consider (考虑 ) 等 都 是 
MBUILD. 


1977 年 尚 克 和 阿 贝尔 森 共 列 出 了 11 个 基本 行为 。 除 了 上 述 的 6 个 之 
外 ， 还 有 MOVE, GRASP, EXPEL, SPEAK, ATTEND 等 5 个 。 另 外 ， 还 有 





一 个 用 于 表示 行为 哑 元 的 DO《〈 泛 指 一 般 的 行为 ) 。 


这 些 基本 行为 的 概念 之 间 的 关系 ， 叫 做 依存 〈dependency) 。 依 存 
关系 的 数量 也 是 有 限 的 ， 每 种 依存 关系 用 一 种 特殊 的 箭头 在 图 上 表示 出 
来 ， 构 成 概念 依存 图 Cconcept dependency diagram) 。 例 如 ，“John 
gives Mary a book.” 这 个 句子 的 概念 依存 图 如 下 : 


Mary 


John <> ATRANS B 





book 


John 
图 8.23 ”概念 依存 图 


其 中 ，John, book, Mary 叫 做 概念 结 点 ，ATRANS 是 这 个 结 点 表示 的 
一 个 基本 行为 ， 是 “给 ”这 种 抽象 天 系 的 转移 ， 标 有 R 的 三 通 第 涉 表 未 
John，Mary 和 Book 之 间 的 接受 或 给 予 的 依存 关系 ， 因 为 Mary 从 John 那 里 
得 到 了 一 本 book， 标 有 O 的 箭头 表示 "“ 宾 位 ?的 依存 关系 ， 也 了 束 是 说 ， 
book 是 ATRANS 的 目的 物 。 








概念 依存 理论 中 的 基本 状态 的 数量 比较 多 。 这 里 举 出 几 种 : 





一 -HEALTH 表 示 健 康 状态 ， 取 值 从 -10 到 +10: 


JE C10 ”重病 (-9) p (-9 到 -1) 不 舒服 C-2) 
正常 (0) ”好 (+7) 完全 健康 (410) 


一 一 FEAR 表 示 害 怕 状 态 ， 取 值 从 -10 到 0: 
毛骨悚然 (-9) fX (-5) ”担心 (-2) ”平静 0) 


一 MENTAL-STATE 表 示 精 神 状 态 ， 取 值 从 -10 到 +10: 


RAE C9) WE (-5) 心烦 C3) PAK C2 
正常 (0) ”愉快 (+2) 高 兴 (+5) 心醉 神 怡 (+10) 


一 PHYSICAL-STATE 表 示 物 理 状 态 ， 取 值 从 -10 到 +10: 


AK C-10) ”重伤 C9 # (-5) WE 〈-5) 
受伤 (-1 到 -7) ”正常 (+10) 


例如 ， 
Mary HEALTH (-10) Mary is dead. 
(玛丽 死 了 。) 
John MENTAL-STATE (+10) John is ecstatic. 
CAV TA) 
Vase PHYSICAL-STATE (-5) The vase is broken. 


ORT 3IRE T «2 


此 外 ， 还 有 CONSCIOUSNESS， ANGER, HUNGER, DISGUST, 
SURPRISE 等 也 都 表示 基本 状态 。 








男 外 一 些 基本 状态 用 来 表示 物体 之 间 的 关系 ， 它 们 不 能 用 数值 标尺 
来 度量 。 例 如 ,，CONTROL, PART-OF, POSSESSION, OWNERSHIP, 
CONTAIN, PROXIMITY, LOCATION, PHYSICAL-CONTACT 等 。 





基本 行为 和 基本 状态 可 以 结合 起 来 。 例 如 ，John told Mary that Bill 
was ”happy 这 个 句子 ， 可 以 不 用 上 面 的 那 种 市 第 涉 的 表达 式 ， 而 用 基本 





行为 和 基本 状态 表示 如 下 : 
John MTRANS (Bill BE MANTAL-STATE (+5) ) to Mary 


其 中 ，MTRANS 表 示 John 把 某 种 精神 信息 转移 给 Mary， 也 就 是 “ 约 
iy RIS”, MENTAL-STATE (+5) 表示 精神 状态 还 好 ， 也 就 是 
Wi. “比尔 是 幸福 的 ”， 这 是 精神 信息 转移 的 内 容 。 





这 个 句子 也 可 以 用 基本 行为 和 基本 状态 表示 如 下 : 


(MTRANS (ACTOR John) 
OBJECT (MENTAL-STATE (OBJECT BILL) 
(VALUE 5) ) ) 
(TO Mary) 
(FROM John) 
(TIME PAST) ) 


根据 前 面 的 解释 ， 读 者 不 难 理解 这 个 表达 式 的 含义 。 
下 面 是 用 这 样 的 方式 表达 的 两 个 语句 的 例子 : 
例子 1. John gave Mary a book. 


(ATRANS (ACTOR John) 
(OBJECT book) 
(TO Mary) 
(FROM John) 
(TIME PAST) ) 


例子 2. John killed Mary. 


CHEALTH (OBJECT Mary) 
(VALUE - 10) 
(CAUSE (DO (ACTOR John) ) ) D 








推理 在 语义 分 析 过 程 中 是 非常 重要 的 ， 这 不 仅 是 由 于 句子 中 个 别 单 
词 或 句法 结构 的 卜 义 需要 借助 于 推理 来 排除 ， 而 且 我 们 还 希望 挖掘 出 句 
Tp ABS Se 





Id oe Se A AA es TE EVO S U PSR TESA ROK AR AIAN: 





(D 行 为 可 以 引起 状态 的 改变 ; 

包 状 态 可 以 使 行为 成 为 可 能 ; 

G@) 状 态 可 以 使 行为 成 为 不 可 能 ; 

状态 可 以 激发 一 个 精神 事件 ， 行 为 也 可 以 激发 一 个 精神 事件 ; 
加 精神 事件 可 以 成 为 行为 的 原因 。 





下 面具 体 说 明 这 种 显 式 表达 的 应 用 。 

例子 1. 如 果 有 

(ATRANS CACTOR x) (OBJECTy) (TOz) (FROM vw) ) 
则 我 们 可 以 进行 如 下 的 推理 : 

前 提 : w 拥 有 y [相当 于 (POSSESSES (ACTOR w) 


-1 (OBJECTy) ) ] 


结果 : z 拥 有 y:; 
允许 z 利 用 y 的 某 些 功能 ; 
w 不 再 拥有 y。 


例子 2. 如 果 有 

(PTRANS (ACTORx) (OBJECTy) (TOz) (FROM w) ) 
则 我 们 可 以 进行 如 下 的 推理 : 

HUGE: y 原 先 在 w 处 [相当 于 (LOCATION (OBJECT y) 


-1 (LOCw) ) |] 


结果 : y 现 在 处 于 z 处 ; 
如 果 z 是 茶 个 物体 的 存放 处 所 ， 那 么 ，z 现 在 可 以 利用 该 物体 的 功能 
y 现 在 已 经 不 处 于 w 处 。 








例子 3， 如 果 存 在 给 定 状 态 (POSSESSES (ACTOR x) (OBJECT 
y) ) 


则 我 们 可 以 推导 出 有 关 行 为 的 原因 : 


CATRANS (ACTOR ?) (OBJECT y) (TO x) (FROM 
2229 


x 之 所 以 POSSESSE y 是 由 于 某 个 ACTOR 从 自身 处 把 y 的 ATRANS 给 
了 了 X。 











第 三 ， 在 句子 的 意义 表达 式 中 ， 必 须 把 隐 睡 地 存在 于 句子 中 的 信息 
尽量 地 显现 出 来 


例如 ，John eats the ice cream with a spoon.〈 约 翰 用 是 吃 冰 湛 淋 ) 这 
个 句子 ， 可 以 用 概念 依存 图 表示 如 下 : 








在 图 8.24 中 ， 标 有 D 的 箭头 表示 方向 依存 关系 ， 标 有 I 的 箭头 表示 工 
有 具 依存 关系 。 值 得 注意 的 是 ，mouth (O) 在 原来 的 句子 中 并 不 存在 ， 
但 是 它 却 作为 一 个 概念 结 点 进入 了 概念 依存 表达 式 中 ， 这 是 概念 依存 网 
络 与 在 分 析 时 产生 的 推导 树 之 间 的 一 个 根本 的 不 同 点 。 根 据 概念 依存 理 
论 的 第 三 条 原理 ，John 的 mouth 是 作为 ice creamh Be gs ba TE F 
句子 的 意义 之 中 的 ， 不 管 它 是 不 是 用 文字 表示 出 来 ，John 号 冰淇淋 的 时 
候 一 定 要 动用 mouth 这 个 接纳 器 ， 因 此 ， 我 们 应 该 在 概念 依存 表达 式 中 
把 它 表 示 出 来 。 











John 


O D John I 
John < INGEST -4—— ice cream -| = | | 
Spoon 


Move 


Ice cream 


| < Spoon 


CONTAIN(spoon) ol 


ice cream mouth 


图 8.24 RRR IAR kK A 
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达 式 还 可 以 把 意思 表示 得 更 细致 一 些 。 例 如 ， 这 个 句子 还 可 以 解释 为 : 





“John INGESTs the ice cream by TRANSing the ice cream on a spoon 


to his mouth, by TRANSing the spoon to the ice cream, by GRASPing the 
spoon, by MOVing his hand to the spoon, by MOVing his hand muscles." 


(约翰 把 冰淇淋 纳入 其 体内 ， 把 古里 的 冰淇淋 转移 到 他 的 口中 ， 
EERE 到 冰淇淋 上 ， 抓 住 RC. IERI] EROR). ， 并 且 使 他 手 
上 的 肌肉 动 起 来 。) 


当然 ， 在 一 般 情 况 下 ， 我 们 没有 必要 没完 没 了 地 进行 这 样 的 扩展 ， 
只 需 扩 展 到 能 够 满足 自然 语言 处 理 系统 的 具体 要 求 束 可 以 了 。 





对 于 诸如 同 义 互 训 (papaphrase ) 和 回答 问题 (question 
answering) 这 样 的 工作 ， 概 念 依存 表达 式 同 那些 面向 表层 结构 的 系统 比 
较 起 来 ， 具 有 不 少 的 优点 。 





例如 ， 


Shakspeare wrote Hamlet. 


(莎士比亚 写 了 汉 姆 羔 特 ) 
和 


The author of Hamlet was Shakespeare. 


( 汉 姆 业 特 的 作者 是 莎士比亚 ) 


这 两 句 话 ， 有 完全 相同 的 意思 ， 因 而 可 以 用 同样 的 概念 依存 表达 式 
来 表示 。 


概念 依存 表达 式 一 般 不 依赖 于 句法 ， 这 与 早期 的 短语 结构 语法 的 释 
句 方式 有 很 大 的 不 同 。 





3. 框架 表示 法 


框架 表示 法 也 叫做 槽 填充 (slot-filler〉 表示 法 。 在 语义 网 络 中 ， 客 
体 用 图 的 结 点 来 表示 ， 客 体 之 间 的 关系 用 有 名 字 的 连接 边 来 表示 。 在 杠 
以 表示 法 中 ， 客 体 用 特征 结构 来 表示 ， 因 此 ， 它 当然 也 可 以 很 目 然 地 表 
示 为 “特征 一 值 算 阵 ?。 在 这 样 的 表示 方法 中 ， 特 征 叫 做 槽 “slot) ， 而 
这 些 槽 的 值 叫 做 填充 者 (filler) ， 填 充 者 可 以 用 原子 值 来 表示 ， 或 者 可 
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例如 ，I believe Mary ate Japanese food. 这 个 句子 的 框架 ， 可 以 用 “ 特 
征 一 值 窍 阵 ”表示 如 下 : 


BELIEVING 

BELIEVER Speaker 
EATING 

BELIEVED | EATER Mary 
EATEN JapaneseFood 


这 种 意义 表示 方法 目前 被 广泛 地 接受 ， 因 为 它 可 以 比较 容易 地 转 写 为 等 
价 的 FOPC 命 题 。 





第 四 节 ”句法 驱动 的 语义 分 析 和 小 
层 语义 分 析 


前 面 我 们 讲述 了 意义 的 四 种 形式 化 表示 方法 ， 现 在 我 们 来 讨论 怎样 
进行 语义 分 析 ， 主 要 介绍 句法 驱动 的 语义 分 析 、 语 义 语法 以 及 浅 层 语义 
分 析 。 


1. 句法 驱动 的 语义 分 析 


句法 驱动 的 语义 分 析 CSyntax-Driven Semantic Analysis) 的 理论 基 
础 是 弗 雷 格 提 出 的 “组 成 性 原则 ” (principle of compositionality) 。 


组 成 性 原则 认为 ， 一 个 句子 的 意义 可 以 由 它 的 儿 个 部 分 (parts〉 的 
意义 组 合 而 成 。 从 表面 上 看 来 ， 这 个 原则 似乎 是 司空 见 惯 的 币 识 ， 不 大 
有 用 处 。 众 所 周知 ， 句 子 是 由 单词 构成 的 ， 而 单词 是 语言 中 意义 的 最 基 
本 载体 。 因 此 ， 这 个 原则 所 告诉 我 们 的 全 部 内 容 似乎 不 过 是 应 该 由 句子 
中 所 包含 的 各 个 单词 的 意义 来 组 成 句子 所 代表 的 意义 。 














不 过 ， 如 末 我 们 仔细 思考 这 个 “组 成 性 原则 ”， 我 们 还 可 以 更 加 深刻 
认识 到 : 一 个 句子 的 意义 并 不 仅仅 依赖 于 句子 中 的 词汇 ， 它 还 依赖 于 名 
子 中 词汇 的 顺序 ， 词 汇 所 形成 的 群 组 以 及 词汇 间 的 关系 。 因 此 ， 句 子 的 
意义 应 该 部 分 地 依赖 于 句法 结构 ， 我 们 可 以 从 句法 来 驱动 语义 分 析 ， 从 
而 得 到 句子 的 语义 。 这 就 是 句法 驱动 的 语义 分 析 的 基本 根据 。 





在 句法 驱动 的 语义 分 析 中 ， 意 义 表示 的 组 成 是 由 我 们 在 前 面 讨论 的 
语法 分 析 中 所 提供 的 句法 成 分 和 关系 来 引导 的 。 


首先 ， 我 们 以 输入 句子 的 句法 分 析 结 下 作为 语义 分 析 器 的 输入 。 输 
入 句子 首先 通过 剖析 器 获得 它 的 句法 分 析 结 果 。 接 着 这 个 句法 分 析 结 果 
被 传 给 语义 分 析 峰 来 产生 意义 表示 。 











在 图 8.23 中 ， 输 入 句子 经 过 剖析 器 得 到 表示 句子 句法 结构 的 树 形 
图 ， 经 过 语义 分 析 器 ， 最 后 得 到 句子 的 语义 表示 作为 输出 。 这 种 方法 ， 
叫做 “管道 流 方法 ”(pipe-line approach) 。 











值得 注意 的 是 ， 尽 管 在 图 8.25 中 我 们 使 用 剖析 天 产生 的 树 形 岁 作为 
输入， 但 是 在 实际 上 ， 我 们 也 可 以 用 其 他 的 句法 表示 ， 比 如 特征 结构 、 
词汇 依存 关系 图 等 作为 输入 。 


LH. ‘il | 1 
输入 一 一 剖析 器 — 树 形 图 一 一 Me" dut 


图 8.25 ism AY 








如 采 我 们 已 经 得 到 了 表示 输入 句子 句法 结构 的 树 形 图 ， 那 么 。 我 们 
就 可 以 进行 句法 驱动 的 语义 分 析 了 。 


一 般 地 说 ， 语 义 分 析 可 以 分 为 如 下 几 个 步骤 : 


(1) 把 单词 的 FOPC 表 达 式 附着 到 树 形 图 中 的 词汇 单元 上 。 





(2) 把 树 形 图 中 无 分 又 子 树 的 子女 结 点 的 语义 值 复制 到 父母 结 点 
ds 





(3) 把 类 似 于 函数 的 “表达 式 ”( 和 -expressions) 附着 到 句子 的 中 


心动 词 上 ， 然 后 使 用 这 个 类 似 于 函数 的 表达 式 来 处 理 该 动词 的 一 个 或 
多 个 子女 结 点 。 


(4) 使 用 “复杂 项 ”(complex term) 来 处 理 带 有 逻辑 量词 的 表达 
式 ， 把 这 种 复杂 的 表达 式 临 时 地 作为 一 个 单独 的 项 来 处 理 。 


下 面 我 们 首先 从 分 析 比 较 简 单 的 句子 “Maru serves. meat.” 开 始 来 说 
明 上 述 语义 分 析 的 过 程 。 


(1) 把 单词 的 FOPC 表 达 式 附着 到 树 形 图 中 的 词汇 单元 上 。 
这 个 输入 句子 经 过 人 句法 分 析 之 后 ， 我 们 得 到 如 下 的 树 形 图 : 


P di Bat 
| "m. Ec 


Proper -Noun Verb 


Maru serves Mase- Noun 


meat 
图 8.26 ”经 过 人 句法 分 析 得 到 的 树 形 图 











为 了 处理 语 义 信息 ， 我 们 需要 扩充 上 下 文 无 天 规则 ， 给 上 下 文 无 关 
规则 附着 语义 信息 。 抽 象 地 说 ， 扩 充 的 上 下 文 无 关 语 法 规则 的 结构 为 : 


A—Q1...0n {f Caj sem, ..., Qk sem) } 





容易 看 出 ， 我 们 在 基本 的 上 下 文 无 关 规 则 A -at .oa WEF 
(RHS) 增加 了 {f(a .sem, .., ay sem) } 这 样 的 语义 信息 。 如 果 我 们 
给 成 分 A 附着 的 语义 信息 记 为 A.sem， 那 么 ， 这 个 语义 信息 可 以 通过 计 
SLR BLE Caj sem, …，ok sem) 而 得 到 ， 其 中 ， Co; .sem, …， ap sem) 
是 规则 右手 边 〈RHS) 的 成 分 aj … on 相应 的 语义 信息 。 


在 我 们 的 例子 中 ， 我 们 从 句子 中 比较 具体 的 成 分 Maru 和 meat 开 始 进 
行 计 算 ， 这 两 个 成 分 都 是 名 词 短 语 NP， 然 后 自 下 而 上 地 、 一 步 一 步 地 
计算 出 更 加 复杂 的 语义 表达 式 ， 最 后 计算 出 整个 句子 的 语义 表达 式 。 我 
们 句子 中 的 具体 成 分 Maru 和 meat 可 以 分 别 用 FOPC 常 数 Maru 和 Meat 来 
表示 ， 为 了 与 单词 Maru 和 meat 相 区 别 ， 我 们 把 这 两 个 表示 语义 信息 的 常 
数 用 斜体 字母 表示 。 我 们 首先 把 这 两 个 常数 附着 到 树 形 图 中 相应 的 成 分 
上 ， 得 到 下 面 的 扩充 的 上 下 文 无 关 规则 : 











ProperNoun — Maru inn 
MassNoun — meat ~ 


在 这 两 个 规则 中 ，{Maru } 和 {Meat } 表 示 附 着 在 有 规则 所 生成 的 子 
树 中 所 包含 的 语义 信息 ， 即 常数 Maru 和 Meat。 





(2) 把 树 形 图 中 无 分 又 子 树 的 子女 结 点 的 语义 值 复制 到 父母 结 点 
Js 





在 树 形 图 中 ， 上 层 结 点 NP 的 语义 表示 信息 可 以 从 它们 的 子女 结 点 
获得 ， 因 此 。 我 们 可 以 把 子女 结 点 的 语义 表示 信息 直接 地 复制 到 它们 的 


父母 结 点 上 。 


NP 2 ProperNoun {ProperNoun.sem } 


NP — MassNoun {MassNoun.sem } 


这 两 个 规则 说 明 ， 名 词 短 语 NP 的 语义 表示 信息 与 它们 的 子女 结 点 
ProperNoun 和 MassNoun 的 语义 表示 信息 是 相同 的 ， 分 别 表示 
为 ProperNoun.sem 和 MassNoun.sem 。 一 般 说 来 ， 在 表示 无 分 又 子 树 的 
语法 规则 中 ， 子 女 结 点 的 语义 表示 信息 可 以 原封 不 动 地 复制 到 它们 的 父 
母 结 点 上 。 














(3) 把 类 似 于 函数 的 表达 式 〈》X-expressions) 附着 到 句子 的 中 心 
动词 上 ， 然 后 使 用 这 个 类 似 于 函数 的 表达 式 来 处 理 该 动词 的 一 个 或 多 
个 子女 结 点 。 


把 子女 结 点 的 语义 表示 信息 复制 到 它们 的 父母 结 点 上 以 后 ， 我 们 就 
可 以 来 计算 以 动词 serves 为 中 心 的 这 个 句子 所 描述 的 事件 的 语义 信息 
了 。 一 个 普通 的 Serving 事 件 包含 Server〔 供 应 者 ) 和 Served (供应 的 东 
西 ) ， 可 以 用 如 下 的 逻辑 公式 来 表示 : 


Je, x, y ISA Ce, Serving) 人 Server Ce, x) A Served (e,y) 


对 于 动词 serves 的 语义 附着 ， 我 们 只 需要 简单 地 把 这 个 逻辑 公式 加 
到 上 下 文 无 天 语法 规则 的 右手 边 束 可 以 了 ， 我 们 有 : 


Verb — serves 
{ He, x, y ISA Ce, Serving) 人 Server Ce, x) ^ Served Ce, 


y) } 


然后 我 们 在 树 形 图 中 继续 同上 进行 语义 计算 ，Verb 结 点 的 上 面 一 个 
成 分 是 VP， 这 个 VP 的 子 树 不 是 一 个 无 分 义 的 子 树 ， 它 对 应 着 一 个 有 分 
又 的 语法 规则 ，VP 包 含 serves 和 meat 两 个 单词 ， 直 接 支 配 着 Verb 和 NP 这 
两 个 子女 结 点 ， 这 时 ， 我 们 不 能 把 Verb 和 NP 这 两 个 子女 结 点 的 语义 表 
示 信 息 直接 复制 到 VP 上 ， 我 们 需要 把 NP 的 语义 信息 融合 到 Verb 的 语义 
言 轧 中 去 ， 并 且 把 融合 所 得 的 语义 表示 信息 指派 给 VP， 这 个 融合 后 得 
到 的 语义 表示 信息 记 为 VP.sem。 














但 是 ， 关 于 动词 serves 的 FOPC 公 式 不 能 给 我 们 提供 任何 的 手段 ， 
而 也 就 不 能 告诉 我 们 在 什么 时 候 和 用 什么 方式 来 处 理 FOPC 公 式 中 包含 
的 x, y 这 两 个 变量 。 

在 这 种 情况 下 ， 我 们 可 以 使 用 ”lambda 符号 ”(lambda notation) 来 
解决 这 个 问题 。Lambda 符 号 是 FOPC 符 号 的 扩展 ， 它 给 我 们 提供 了 这 种 
形式 化 参数 的 功能 。lambda 符 号 扩充 了 FOPC 人 句法 ， 使 FOPC 能 引入 下 面 
的 表达 式 : 


AxP (x) 





这 个 表达 式 由 三 部 分 组 成 ， 首 先是 希腊 符 写 入 ( 读 为 Jambda”) , 
接着 是 一 个 或 多 个 变量 ， 最 后 是 使 用 这 些 变 量 的 FOPC 表 达 式 。 





当 我 们 把 和 表达 式 用 于 逻辑 项 时 ， 可 以 生成 新 的 FOPC 表 达 式 ， 在 这 
些 新 的 FOPC 表 达 式 中 的 形式 参数 变量 可 以 由 指定 的 项 来 绑 定 。 这 种 处 
理 叫 做 “化 简 ”(A-reduction〉， 和 化 简 就 是 和 变量 由 指定 的 FOPC 项 来 进 
行 简 单 的 字面 瞧 换 并 去 挥 和 的 过 程 。 











下 面 表达 式 说 明 这 种 和 化 简 的 过 程 。 首 先 将 一 个 表达 式 用 于 当量 
A， 得 到 MxP GO (A) ， 接 着 对 这 个 表达 式 进行 化 和 镜 ， 用 指定 的 项 A 


KEMP GO 中 的 形式 参数 变量 x， 得 到 P〈A) : 


AxP (x) (A) 
P (A) 


符号 提供 了 我 们 前 述 的 在 动词 语义 中 需要 的 两 种 能 
第 一 ， 形 式 参 数 使 我 们 可 以 表达 各 种 不 同 变量 ， 
第 二 ， 化 简 可 以 使 我 们 用 项 来 蔡 换 这 些 变 量 。 


这 样 ， 我 们 残 可 以 将 一 个 和 表达 式 作为 乃 一 个 和 表达 式 的 一 部 分 ， 如 
BATA: 


AxAyNear (x, y) 





这 个 表达 式 非 常 抽象 ， 可 以 解释 为 某 些 事物 x 与 另 一 些 事物 y 彼 此 接 
it (Nea) 的 状态 。 例 如 ， 我 们 可 以 用 它 来 描述 句子 “Log-house is near 
KAIST”. 


首先 ， 我 们 用 项 KAIST 来 蔡 换 变量 x， 进 行 化 简 ， 得 到 : 


Ax Ay Near (x,y) (KAIST) 
Ay Near (KAIST, y) 


显而易见 ， 这 个 和 化 简 之 后 得 到 的 结果 仍然 是 一 个 人 表达 式 。 第 一 次 
和 化 简 时 ， 绑 定 了 变量 x， 并 把 这 个 x 从 和 表达 式 中 删除 ， 这 样 ， 符 在 内 部 
的 另 一 个 和 表达 式 就 浮现 出 来 了 ， 它 束 是 Xy Near (KAIST, y) ， 我 们 用 
为 外 一 个 项 Log-house 来 蔡 换 变量 y， 得 到 如 下 的 逻辑 公式 : 


ày Near (KAIST, y? (Log-House) 


Near (KAIST, Log-House ) 


最 后 得 到 的 FOPC 公 式 “Near (KAIST, Log-House) ”清楚 地 描述 了 
句子 “Log-house is near KAIST.” 的 语义 。 


这 种 多 次 进行 化 简 的 技术 叫做 “梳理 ”(currying) ， 也 就 是 像 概 理 
马 的 占 毛 那样 ， 一 步 一 步 地 进行 变量 的 化 简 。 当 谓词 具有 多 个 论 元 的 
时 候 ， 使 用 这 种 梳理 技术 ， 可 以 把 含有 多 个 论 元 的 谓词 转换 为 否 干 个 只 
含有 单个 论 元 的 谓词 的 序列 。 所 以 ， 这 种 “梳理 ”技术 是 非常 有 用 的 。 


现在 ， 我 们 就 可 以 使 用 符号 和 和 化 简 来 处 理 前 面 关 于 VP 的 语义 附 
着 问题 了 。 





我 们 有 关于 动词 serves 的 扩充 的 上 下 文 无 关 规 则 如 下 : 


Verb>-serves 
{ He, x, y ISA (e, Serving) ^ Server (e, x) ^ 


Served (e, y) } 





首先 ， 我 们 把 这 个 规则 中 的 动词 语义 附着 改变 为 表达 式 ， 得 到 : 


Verb—serves 
AxAy{ He, x, y ISA Ce, Serving) ^ Server (e, x) ^ Served 
(e, y) j 








Verb tt Æ If] FE 2 SB Ag ee E — PAX EUN — TG TOR AL UY o 
外 部 的 表达 式 提供 了 首次 和 化 简 中 可 以 蔡 换 的 变量 x， 而 内 部 的 表达 式 可 
用 充当 Server 角 色 的 变量 y 来 绑 定 。 在 动词 语义 附着 中 多 层 和 表达 式 的 变 
量 的 顺序 ， 清 楚 地 表明 在 句法 中 动词 论 元 具有 所 期 望 的 位 置 这 一 事实 。 











然后 ， 我 们 使 用 “梳理 ”的 方法 ， 一 步 一 步 地 进行 变量 的 和 化 简 。 首 
先 使 用 内 部 的 和 表达 式 对 充当 serves 角 色 的 变量 y 进 行 绑 定 ， 在 我 们 的 例 
子 中 ， 及 物 动词 VP 规 则 的 语义 附着 确定 了 入 应用， 这 里 人 表达 式 由 
Verb.sem 指 定 ， 论 元 由 NP.sem 〈Verb.sem 的 子女 结 点 ) 指定 。 








VP 5 Verb NP (Verb.sem (NP.sem) } 


这 个 和 变换 使 用 NP.sem 中 包含 的 值 来 蔡 换 y， 也 束 是 用 常数“Meat” 蔡 换 包 
含 在 内 部 表达 式 中 的 变量 y 来 进行 化 简 。 和 变换 后 得 到 的 表达 式 代 表 了 
VP“serves meat” 的 含义 ，VP.sem 的 值 如 下 : 


Ax( He, x ISA (e, Serving) 人 Server Ce, x) 人 Served (e, 
Meat) } 


由 于 谓词 具有 多 个 论 元 ， 还 需要 继续 进行 梳理 。 为 了 完成 这 个 句子 的 语 
义 分 析 ， 我 们 还 要 为 规则 S$ 建 立 语义 附着 。 这 个 规则 S$ 必 须 把 VP 前 面 的 
论 元 NP 融 入 到 VP.sem 中 的 事件 所 代表 的 语义 角色 中 去 。 这 需要 使 用 另 
一 个 和 变换 来 处 理 句 首 的 NP.sem。 


SNP VP {VP.sem (NP.sem) } 
这 里 的 NP.sem 是 处 于 句 首 的 NP.sem。 
这 个 和 变换 的 结果 如 下 : 


de ISA (e, Serving) A Server (e, Maru) ^ Served (e, 
Meat ) 


这 就 是 我 们 语义 分 析 的 结果 。 


“Maru serves meat” 这 个 句子 的 语义 是 : 存在 者 一 个 关于 “ 供 
M” (Serving) 的 事件 ， 这 个 事件 的 “供应 者 ”(Server) 是 饭馆 Maru， 
这 个 事件 的 “供应 物 ” (Served) 是 “肉食 * (Meat) 。 这 样 的 语义 ， 正 确 
地 反映 了 这 个 句子 的 实际 含义 。 可 见 我 们 的 语义 分 析 是 成 功 的 。 
具有 上 述 语义 附着 的 剖析 树 如 下 : 


S 3e ISA(e, Serving) A Server(e, Maru) A Served(e, Meat) 
NP VP Axí3e,xISA(e, Serving) A Server(e, x) A Served(e, Meat)} 
Proper-Noun Verb NP 


Maru serves Mase -Noun 





Meat 
图 8.27 带 语义 附着 的 剖析 树 





使 用 这 样 的 语义 分 析 方 法 ， 我 们 就 可 以 把 表示 句法 结构 的 训 析 树 转 
化 为 高 有 语义 附着 的 训 析 树 。 





显而易见 ， 这 样 的 语义 分 析 方 法 是 由 人 句法 驱动 的 ， 所 以 ， 我 们 把 这 
样 的 方法 叫做 句法 驱动 的 语义 分 析 法 。 


(4) 使 用 复杂 项 来 处 理 那 些 带 有 逻辑 量词 的 表达 式 ， 把 这 样 的 表 
达 式 临时 作为 项 来 处 理 。 


我 们 来 研究 句子 “A restaurant serves meat”。 这 个 句子 与 我 们 上 面 的 
句子 “Maru serves meat” 的 不 同 之 处 仅仅 在 于 主语 ， 这 个 句子 的 主语 是 带 
有 逻辑 量词 的 NP“A restaurant”， 而 上 面 句 子 的 主语 是 一 个 专 有 名 


词 <Maru”。 由 于 句子 的 其 他 部 分 相同 ， 所 以 我 们 只 需要 着 重地 研究 主语 
的 语义 表示 问题 ， 然 后 ， 把 这 个 语义 表示 融合 到 动词 短语 中 就 可 以 了 。 


初 看 起 来 ， 我 们 似乎 可 以 把 这 个 句子 的 主语 表示 为 如 下 的 公式 : 
习 XISA (x, Restaurant) 
然后 我 们 把 主语 的 表达 式 散 入 到 谓词 “Server” 中 去 ， 得 到 : 


Je ISA Ce, Serving) 人 Server Ce, 3x ISA (x, Restaurant) ) 
/\ Served Ce, Meat) 


尽管 这 个 表达 式 在 直觉 上 似乎 是 合理 的 ， 但 是 ， 这 不 是 一 个 合格 的 
FOPC 公 式 ,“ 习 x ISA (x, Restaurant) ”不 能 作为 谓词 的 论 元 ， 因 为 
FOPC 中 谓词 的 论 元 只 能 是 项 。 


我 们 可 以 引入 复杂 项 (complex-term) 的 概念 来 解决 这 个 问题 。 我 
们 把 “x ISA (x, Restaurant) “前 后 用 尖 括 号 把 插 起 来 ， 改 写 为 < 习 x 
ISA (x, Restaurant) >， 这 个 < 习 x ISA (x, Restaurant) > 就 是 复杂 项 ， 
它 可 以 出 现在 一 般 的 FOPC 中 只 有 项 才能 出 现 的 位 置 上 。 


形式 地 说 ， 一 个 复杂 项 可 以 由 如 下 三 个 部 分 组 成 : 
<Quantifier variable body> 


其 中 ，Quantifier 是 “量词 ”，variable 是 “变量 ”，body 是 “ 体 ”。 在 复杂 
项 < 习 X ISA (x, Restaurant) > 中 ， 习 是 “量词 ”，X 是 “变量 ”，ISA (x, 


Restaurant) 是 “ 体 ”。 


把 复杂 项 这 样 的 记 法 应 用 到 我 们 的 句子 中 ， 我 们 可 以 得 到 如 下 的 表 


XX. 


de ISA Ce, Serving) A Server Ce, «HxISA (x, Restaurant) 
>) A Served Ce, Meat) 








我 们 可 以 根据 下 面 的 规则 来 改写 任何 包含 复杂 项 的 谓词 : 


P (<Quantifier variable body? ) 


一 


Quantifier variable body Connective P (variable) 





这 个 规则 的 含义 是 : 


e 复杂 项 可 以 从 它 所 出 现 的 谓词 P 中 抽取 出 来 ; 

。 复杂 项 可 以 由 问题 中 代表 客体 的 变量 来 将 换 ; 

e 在 复杂 项 蔡 换 时 ， 要 使 用 适当 的 连接 词 (Connective) 把 原来 复杂 
项 中 的 量词 、 变 量 和 体 与 含有 变量 的 谓词 P 联 系 起 来 。 





根据 这 个 规则 ， 我 们 有 : 


Server (e, «dx ISA (x, Restaurant) >) 


=> 


dx ISA (x, Restaurant) ^ Server (e, x) 


这 里 ， 我 们 使 用 的 连接 词 是 "人 ”， 此 外 ， 还 可 以 使 用 连接 词 “之 ”。 


究 况 使 用 什么 样 的 连接 词 依赖 于 表达 式 中 的 逻辑 量词 。 如 果 人 逻辑 量 
词 为 存在 量词 ， 则 连接 词 为 “人 ”， 如 果 轴 辑 量词 为 全 称 量词 ， 则 连接 词 
A. eU, 











。 八 与 存在 量词 习 一 起 使 用 ; 
。 忆 与 全 称 量 词 v 一 起 使 用 。 


我 们 的 表达 式 为 : 


de ISA (e, Serving) ^ Server Ce, < 习 XISA (x, Restaurant) 
>) A Served Ce, Meat) 





在 这 个 表达 式 中 ， 复 杂项 < 习 x ISA (x, Restaurant) > 的 量词 为 存在 
量词 ， 所 以 ， 应 该 用 连接 词 “ 八 ”改写 为 “3x ISA (x, Restaurant) ^ 
Server (e, x) ”。 最 后 我 们 得 到 句子 的 语义 表达 式 如 下 : 


de ISA Ce, Serving) ^ 3xISA (x, Restaurant) ^ Server (e, 
x) 人 Served Ce, Meat) 


这 个 表达 式 的 含义 是 :“ 存 在 一 个 事件 Serving，xX 是 饭馆 ， 并 且 ， 这 
个 饭馆 是 事件 的 供应 者 ， 这 个 事件 的 供应 物 是 Meat”"。 这 正 是 句子 “A 


restaurant serves meat.” 的 语义 分 析 结 果 。 


如 果 人 句子 是 “Every restaurant serves meat”， 那 么 ， 复 杂项 中 的 逻辑 
量词 将 是 全 称 量 词 Y， 我 们 将 使 用 连接 词 “ 一 ?来 进行 改写 。 


A ARI 


Server Ce, « V x ISA (x, Restaurant) >) 


将 改写 为 : 
V x ISA (x, Restaurant) = Server (Ce, x) 


可 见 ， 在 对 复杂 项 进行 改写 时 ， 不 同 的 逻辑 量词 使 用 的 连接 词 是 不 
同 的 。 我 们 应 该 注意 到 这 个 问题 。 


在 我 们 分 析 的 句子 “a restaurant serves “meat 中， 名词 短语 “a 
restaurant” 的 语义 附着 是 相当 直观 的 。 我 们 可 以 使 用 下 面 的 规则 来 表 
示 : 


NP > Det Nominal {<Det.sem x Nominal.sem (x) >} 








在 这 个 规则 中 ， 语 义 附 着 部 分 是 复杂 项 <Det.sem x Nominal.sem (x) 
>， 在 复杂 项 中 ， 首 先 根 据 Det 的 不 同 选用 不 同 的 逻辑 量词 ， 然 后 根据 
与 “Nominal” 相 关 的 和 表达 式 来 处 理 变 量 x。 











在 我 们 的 句子 中 ，Det 是 不 定 冠 词 “a"， 因 此 ， 应 该 使 用 多 辑 量 
词 “ 习 ”， 我 们 有 : 


Det—a {A} 


范 因 Nominal 的 任务 是 建立 一 个 ISA 公 式 和 一 个 与 Noun 相 关 的 入 表达 
式 。 我 们 有 : 


Nominal ~ Noun {Ax ISA Cx, Noun.sem) } 


最 后 ， 名 词 附 着 只 需要 提供 一 个 范畴 名 字 就 可 以 了 。 我 们 有 : 


Noun — restaurant {Restaurant} 





这 正 是 名 词 短 语 “a restaurant” 的 语义 表达 式 “ 习 X ISA (x, 
Restaurant) ”的 含义 。 





在 改写 包含 复杂 项 的 谓词 的 规则 中 ， 需 要 针对 不 同 的 逻辑 量词 选用 
不 同 的 连接 词 ， 因 此 ， 当 一 个 句子 中 既 包 括 带 全 称 量词 的 名 词 短语 又 包 
括 带 存在 量词 的 名 词 短语 时 ， 由 于 改写 顺序 的 不 同 ， 就 可 以 得 到 不 同 的 
语义 分 析 结果 。 





我 们 来 考虑 下 面 的 句子 : 


Every restaurant has a menu 





我 们 可 以 用 FOPC 公 式 把 它 表 示 如 下 : 


de ISA (e, Having) 
/\ Haver (e, < V x ISA (x, Restaurant) >) 


^ Had (e, < Hy ISA Cy, Menu) >) 


这 里 ， 用 来 改写 "Haver” 和 “Had” 的 两 个 复杂 项 的 逻辑 量词 分 别 为 全 称 量 
词 和 存在 量词 ， 如 果 我 们 首先 改写 Haver 的 复杂 项 ， 然 后 再 改写 Had 的 复 
杂项 。 也 就 是 首先 把 





Haver Ce, « V x ISA (x, Restaurant) >) 
改写 为 
V x ISA (x, Restaurant) = Haver (e, x) ， 


然后 把 


Had (e, < 3yISA (y, Menu) >) 
MUS 
JyISA Cy, Menu) ^ Had Ce, y) , 
最 后 ， 把 改写 的 结果 合并 ， 我 们 将 得 到 如 下 的 意义 表达 式 : 


V xISA (x, Restaurant) = 
de ISA (e, Having) 人 Haver (e, x) ^ dy ISA Cy, Menu) 
/\ Had Ce, y) 


这 样 的 表达 式 与 我 们 对 于 这 个 句子 的 常识 性 解释 是 完全 符合 的 。 
在 “3e ISA Ce, Having) ”中 ， 我 们 用 谓词 “Having” 来 蔡 换 ISA， 得 
到 “ 习 e Having (e) ”， 上 整理 后 ， 我 们 有 : 


V x ISA (x, Restaurant) 之 
de Having (e) ^ Haver (e, x) ^ Hy ISA Cy, 


Menu) ^ Had (e, y2 


PI FE Le TEE RH] SAA FETA TS Se Having (e) ”和 “3y 
ISA Cy, Menu) ”合并 为 “3e, y Having (e) ^ ISA Cy, Menu) ”, f& 
到 : 


V x ISA (x, Restaurant) > 
Haver (e, x) Ade, y Having (e) ^ ISA Cy, Menu) A 
Had (e, y2 


这 样 一 来 , 我 们 有 


V x ISA (x, Restaurant) > 
de, y Having Ce) ^ Haver (e, x) ^ ISA (y, 
Menu) ^ Had (e, y) 


这 意味 着 : “for all restaurants, every restaurant has a menu” OG] F Er 


有 饭馆 ， 每 一 个 饭馆 都 有 一 份 染 单 ) 。 
另 一 方面 ， 对 于 这 个 句子 的 FOPC 公 邢 


de ISA (e, Having) 
^ Haver (e, « V x ISA (x, Restaurant) >) 


^ Had (e, « Hy ISA Cy, Menu) >) 





如 果 我 们 按照 相反 的 顺序 来 改写 复杂 项 ， 也 就 是 首先 把 
Had (e, < Jy ISA Cy, Menu) >) 
MUS 
JyISA Cy, Menu) ^ Had Ce, y) ， 
然后 再 把 
Haver (Ce, « V x ISA (x, Restaurant) >) 
加 到 这 个 表达 式 中 ， 得 到 


dy ISA Cy, Menu) ^ Had (e, y) ^ de ISA (e, Having) 


^ Haver (e, < V x ISA (x, Restaurant) >), 


接着 ， 再 把 复杂 项 


Haver Ce, « V x ISA (x, Restaurant) >) 
改写 为 

VxISA (x, Restaurant) = Haver (e, x) ， 
我 们 得 到 : 


Jy ISA Cy, Menu) A^ V x ISA (x, Restaurant) = Haver (e, 
x) ^ Had Ce, y?) A HeISA Ce, Having) , 


在 “3e ISA Ce, Having) "rH, RIJA Hi“ Having K E RISA, 4 
fl*3eHaving (e) ”， 整 理 后 ， 我 们 有 : 


Jy ISA Cy, Menu) 人 V x ISA (x, Restaurant) = Haver (e, 
x) ^ Had Ce, y?) A de Having (e), 


最 后 ， 我 们 得 到 : 


dy ISA Cy, Menu) ^ V x ISA (x, Restaurant) > Je 
Having (e) A^ Haver Ce, x) ^ Had (e, y2 o 


这 意味 着 ，“there exits a menu and all restaurant has this menu” (存在 
着 一 份 菜 单 ， 所 有 的 饭馆 都 有 这 份 菜单 ) 。 这 样 的 意思 显然 有 点 儿 奇 
怪 ， 但 它 确实 是 这 个 句子 的 一 种 解释 。 








这 个 例子 次 明 ， 如 采 我 们 按照 不 同 的 顺序 来 改写 复杂 项 ， 我 们 有 可 
能 把 逻辑 量词 中 包含 的 细微 差别 穷尽 地 挖掘 出 来 ， 一 个 带 有 两 个 复杂 项 
的 句子 ， 可 以 具有 两 个 在 意义 上 不 相 容 的 FOPC 表 达 式 。 由 此 可 以 看 
出 ， 我 们 对 于 复杂 项 改写 的 方法 具有 很 强大 的 功能 。 








句法 驱动 的 语义 分 析 所 得 到 的 结果 是 句子 的 语义 表示 ， 这 样 的 语义 
表示 反映 了 句子 中 的 “谓词 论 元 结构 ”便于 在 机 器 翻译 时 进行 源 语言 到 
目标 语言 的 转换 。 


2.18 x 





句法 驱动 的 语义 分 析 是 按照 “组 成 性 原则 ?来 进行 的 ， 在 这 样 的 语义 
分 析 中 ， 语 义 的 组 成 成 分 应 该 与 句法 的 组 成 成 分 相 匹 配 。 但 是 ， 由 传统 
的 上 下 文 无 关 语 法 (CFG) 分 析 而 得 到 的 句子 的 句法 结构 常常 不 能 适应 
于 语义 分 析 的 要 求 ， 人 句法 结构 中 的 成 分 与 语义 成 分 之 间 往 往 不 能 很 好 地 
匹配 。 这 种 不 能 匹配 的 情况 表现 在 如 下 三 个 方面 : 








QD 关键 的 语义 表示 成 分 常常 广泛 地 散布 在 整个 剖析 树 中 ， 这 样 ， 要 
把 剖析 树 中 需要 的 意义 表示 组 合 起 来 ， 就 变 得 很 复杂 。 











凶 训 析 树 常 营 包含 许多 以 句法 为 目的 成 分 ， 这 些 成 分 在 语义 处 理 中 
并 不 担当 任何 实质 上 的 角色 。 





@ 许 多 句法 成 分 的 概括 性 太 强 ， 导 致 与 它们 对 应 的 语义 附着 所 生成 
的 意义 表示 几乎 是 非常 空洞 的 。 





例如 ，“I want to go to eat some Japanese food today” 这 个 句子 ， 经 过 


句法 剖析 之 后 得 到 如 下 的 树 形 图 : 


Pro Verb VPto 
| | p 
I want InfTO VP 
| P gx C RN 
to VP Adv 
| 
Verb VPto today 
| 
go InfTO VP 
to Verb NP 


some Japanese food 
图 8.28 剖析 树 


在 这 个 剖析 树 中 ， 关 键 的 语义 表示 成 分 广泛 地 散布 于 整个 的 齐 析 
树 ， 同 时 ， 齐 析 树 中 的 大 多 数 结 点 对 于 这 个 句子 的 语义 表示 几乎 没有 任 
何 的 贡献 。 在 句法 驱动 的 语义 分 析 中 ， 这 个 齐 析 树 需 要 进行 三 个 人 表达 
式 〈 分 别处 理 I，Japanese food, today) 和 一 个 复杂 项 (处 理 some 
Japanese food) 的 运算 ， 才 能 在 树 的 顶端 得 到 那些 有 实质 意义 的 语义 表 
示 成 分 。 在 这 个 剖析 树 中 ， 形 容 词 和 名 词性 成 分 的 意义 都 非常 概括 和 空 
洞 ， 除 了 表示 形容 词 对 于 名 词 的 修饰 关系 之 外 ， 几 乎 没有 什么 具体 的 含 
s 











例如 ， 


Nominal — Adj Nominal 


{Ax Nominal.sem (x) ^ AM (x, Adj.sem) } 


这 个 规则 中 ，AM 表 示 “Adjective ”Modifier”， 也 就 是 “形容 词 修饰 
语 >。 在 下 面 的 意义 表达 式 中 ， 使 用 这 样 的 语义 附着 。 我 们 有 : 





习 XISA (x, Food) ^ AM (x, Japanese) 


这 就 是 名 词性 成 分 “Japanese food” 的 语义 解释 ， 这 样 的 语义 解释 非 
常 之 笼统 和 模糊 ， 它 只 是 说 明 Japanese 是 名 词 food 的 形容 词 修饰 语 ， 这 
束 是 AM (x, Japanese) 提供 给 我 们 的 全 部 语义 解释 的 内 容 。 


但 是 , “Japanese food” 和 “Japanese restaurant” 表 示 的 语义 比 这 丰富 得 
£, "Japanese food” 表 示 用 日 本 的 方式 做 出 的 食品 ， 而 “Japanese 
restaurant” 表 示 供 应 这 种 用 日 本 方式 做 出 的 食品 的 饭馆 。 而 这 些 重要 的 
意思 ， 在 上 面 由 AM (x, Japanese) 给 我 们 提供 的 语义 表示 中 都 消失 得 无 
影 无 踪 了 。 


HAR (Brown) AAR (Burton) 与 1975 年 提出 的 “语义 语 
E” (Semantic Grammar) 可 以 帮助 我 们 解决 这 个 问题 。 


e 语义 语法 直接 把 有 关 的 语义 成 分 写 到 语法 规则 中 ， 便 于 按照 组 成 
性 的 原则 进行 组 成 成 分 的 分 析 。 





e. 语义 语法 中 的 规则 和 成 分 是 直接 针对 具体 领域 的 实体 和 实体 之 间 
的 关系 而 设计 的 ， 因 此 ， 它 能 够 满足 具体 领域 语义 分 析 的 要 求 。 





e 在 语义 语法 中 ， 关 键 的 语义 成 分 总 是 与 特定 的 规则 一 起 出 现 的 ， 
规则 的 内 容 非 常 具体 ， 概 括 性 比较 低 ， 便 于 进行 语义 分 析 。 


例如 ， 在 分 析 句 子 “I want to go to eat some Japanese food today.” EF, 


我 们 可 以 提出 如 下 的 语义 语法 的 规则 : 


InfoRequest — User wants to go to eat FoodType TimeExpr 





这 个 语义 语法 的 规则 与 上 下 文 无 关 语法 的 规则 在 形式 上 是 一 致 的 ， 
在 规则 的 右手 边 ， 终 极 符号 和 非 终极 符号 可 以 自由 地 混杂 在 一 起 出 现 ， 
这 样 ， 我 们 就 可 以 设计 “User, FoodType, TimeExpr” 等 表示 具体 语义 的 非 
终极 符号 来 表示 在 “今天 (TimeExpr) R (User) 想 去 吃 日 本 食品 
(FoodType) ”这 个 特定 的 环境 下 所 需要 的 语义 成 分 。 这 时 ， 我 们 不 再 
需要 和 表达 式 ， 因 为 这 个 简单 的 规则 已 经 足以 表达 在 树 形 图 的 顶端 有 关 
论 元 的 语义 关系 了 。 














我 们 还 可 以 提出 如 下 的 语义 语法 规则 来 表示 食品 的 类 型 


FoodType — Nationality FoodType 





在 这 个 规则 中 的 右手 边 有 Nationality 这 个 非 终极 符号 表示 “民族 " 特 
性 ， 有 具体 地 说 明了 所 谓 食品 的 类 型 (FoodType) 是 特别 指 食品 应 该 具 
有 “民族 ”(Nationaly〉 风味。 





由 此 可 见 ， 语 义 语法 可 以 很 好 地 克服 句法 驱动 的 语义 分 析 的 那 种 过 
于 抽象 概括 的 缺陷 ， 可 以 直接 得 出 语义 分 析 的 结果 ， 在 具体 领域 的 语义 
分 析 中 是 很 有 效 的 。 


语义 语法 还 可 以 帮助 我 们 解决 自然 语言 处 理 中 很 困难 的 代词 的 指 代 
问题 Canaphor) 。 例 如 ， 如 果 我 们 要 分 析 下 面 的 两 个 句子 : 








When does flight KE852 arrive in Seoul? 


When does it arrive in Beijing? 





我 们 不 知道 第 二 个 句子 中 的 让 完 竟 代表 什么 ， 如 果 采 用 句法 驱动 的 语义 
分 析 ， 我 们 只 能 知道 it 是 一 个 代词 。 但 是 ， 如 果 我 们 为 飞行 的 领域 设计 
一 个 语义 语法 ， 根 据 第 一 个 句子 ， 我 们 可 以 提出 这 样 的 语义 语法 规则 : 


InfoRequest — when does Flight arrive in City . 


在 这 个 规则 的 右手 边 包 含有 两 个 表示 语义 的 非 终 极 符号 Flight〈 表 示 “ 航 
Jt") 和 City《〈 表 示 “ 城 市 ?) 。 根 据 这 个 规则 ， 我 们 就 可 以 直接 地 判定 第 
二 个 句子 中 的 it 是 Flight， 表 示 某 个 航班 。 





当然 ， 由 于 语义 语法 是 针对 具体 领域 而 设计 的 ， 它 的 概括 性 太 弱 ， 
对 于 领域 的 依赖 性 太 强 ， 因 此 ， 也 有 它 的 不 足 。 一 般 地 说 ， 语 义 语法 的 
缺点 是 : 





o HTE Creuse) 很 差 。 由 于 语义 语法 是 针对 特定 的 领域 而 设计 
的 ， 换 到 其 他 领域 就 寸步 难 行 ， 几 乎 没有 复 用 性 。 


e 台 是 在 一 个 单一 的 领域 内 ， 由 于 规则 太 具 体 ， 规 则 的 总 量 比较 
大 ， 随 着 领域 复杂 性 的 增加 ， 很 难 避 免 规则 数量 的 增长 。 例 如 ， 我 们 上 
面 的 规则 


FoodType — Nationality FoodType 


对 于 Japanese food 是 适用 的 ， 可 是 对 于 Canadian food 就 不 一 定 适 用 了 ， 
为 Canadian 强 调 的 是 “地 域 ”(Location) ， 而 不 是 “民族 风 

Wk" (Nationality) ，Canadian ” ”food 表示 的 意思 是 “加 拿 大 地 区 出 产 的 食 
品 ”， 而 不 是 “加 拿 大 风味 的 食品 ”， 这 时 ， 我 们 势必 要 把 规则 

FoodType — Nationality FoodType 中 的 Nationality 改 为 Location， 再 增加 一 
条 规则 : 














FoodType — Location FoodType 





这 样 一 来 ， 规 则 的 数量 将 会 大 量 增加 。 





所 以 ， 我 们 在 使 用 语义 语法 时 ， 应 该 注意 到 它 的 这 些 局 限 性 。 
3. 浅 层 语义 分 析 


除了 句法 驱动 的 语义 分 析 和 语义 语法 之 外 ， 还 可 以 采用 浅 层 语义 分 
析 Cshallow semantic parsing) 的 方法 来 进行 自动 语义 分 析 。 这 种 浅 层 语 
义 分 析 需 要 首先 对 于 语料库 进行 语义 标注 ， 给 语料库 中 的 句子 标注 语义 
角色 (semantic role) 信息 ， 例 如 ， 论 元 (argument) 信息 (如 施 事 、 受 
事 、 与 事 等 ) 和 说 明 语 (adjunct) 信息 〈 如 条 件 、 方 位 、 时 间 、 方 式 、 
目的 、 结 果 等 ) ， 分 析 这 些 语义 角色 和 句子 中 谓词 的 关系 ， 束 可 以 揭示 
出 句子 中 的 “谓词 论 元 结构 ”， 然 后 通过 机 器 学 习 的 方法 对 于 已 经 标注 了 
语义 角色 信息 的 语料库 进行 训练 ， 获 取 关 于 语义 的 统计 规则 ， 最 后 ， 使 
用 这 些 规则 对 于 新 输入 的 句子 进行 语义 标注 ， 束 可 以 达到 语义 自动 分 析 
的 目的 。 





这 样 的 浅 层 语义 分 析 是 在 语料库 的 基础 上 进行 的 ， 在 基于 语料库 的 
机 需 翻 译 中 ， 可 以 使 用 这 种 方法 。 


HAT ARIYA 


早 在 20 世 纪 40 年 代 初 期 ， 结 构 主义 丹麦 学 派 的 代表 人 物 叶 尔 姆 斯 列 
X CL. Hjelmslev) 就 提出 了 义 素 分 析 法 (sememe analysis) 的 设想 。50 
年 代 ， 美 国人 类 学 家 朗 斯 伯 里 (F.G. Lounsbury) MEAR (W.H. 
Goodenough) 在 研究 亲属 词 的 含义 时 束 提 出 了 义 素 分 析 法 。60 年 代 初 ， 
美国 语言 学 家 卡 兹 (J.J. Katz) 和 弗 托 提出 了 解释 语义 学 Cinterpretive 
semantics) ， 将 义 素 分 析 法 引入 语言 学 中 ， 为 生成 转换 语法 提供 语义 特 
征 。 


ME (sememes) 是 构成 意义 的 基本 要 素 ， 是 词 的 理性 意义 的 区 别 
特征 。 


词 的 理性 意义 是 一 束 语 义 特征 的 总 和 ， 这 一 束 语义 特征 ， 就 是 义 
素 。 例 如 ， 汉 语 “ 哥 哥 ” 的 理性 意义 是 [+A] RR] [+ 同胞 ]」 [+ 年 
长 ] [+ 男性 ] 等 义 素 的 总 和 ,“ 第 第 ”的 理性 意义 是 [+A] [+ 亲属 ] 
[+ 同胞 ] [- 年 长 ] [+ 男性 ] 等 义 素 的 总 和 , “姐姐 ”的 理性 意义 是 
L+A] FRR] [+ 同胞 ] [+ 年 长 ] 上 -男性 ] 等 义 素 的 总 和 ,“ 妹 
妹 ” 的 理性 意义 是 [+ 人 」 [+ 亲属 ] [+ 同胞 ] [- 年 长 ] [上 -男性 ] 等 义 
素 的 总 和 。 在 义 素 的 标记 中 ,，“+” 表 示 肯 定 ，“-” 表 示 表 示人 否定 ，【 上 -年 
K] mæ [+ 年 幼 ] ，[- 男 性 ] 束 是 [+ 女性 」]。 


“哥哥 ”的 义 素 [+ 年 长 」 是 与 弟弟 的 义 际 [- 年 长 ]】 相 比较 而 言 
Hy, “哥哥 ”的 义 素 L+ 男 性 ] 是 与 姐姐 的 义 素 [- 男 性 ] 相 比较 而 言 的 。 
英语 中 表示 同胞 的 杀 属 词 brother 没 有 长 幼 的 对 比 ，brother 既 可 表示 汉语 
的 “哥哥 ”， 又 可 表示 汉语 的 “弟弟 ”， 因 此 ， 英 语 也 就 没有 FRK] ~ 





[- 年 长 」 这样 的 义 素 。 壮 语 中 表示 同胞 的 亲属 词 没 有 男女 的 对 比 ， 因 
此 ， 壮 语 也 就 没有 [+ 男性 ] 、 上 -男性 ] 这样 的 义 素 。 


一 组 词 的 义 素 可 以 用 义 素 矩 阵 来 表示 ， 纵 坐标 表示 词 ， 横 坐标 表示 
义 素 ， 纵 横 两 坐标 的 相交 点 上 注 以 +、-” 号 。 


例如 ， 汉 语 中 表 同 胞 的 亲属 词 的 义 素 滤 阵 如 下 : 





LA] [ 亲属 ] [ 同胞 ] [ 年 长 ] [ 男性 ] 
哥哥 十 十 十 十 十 
第 弟 十 十 十 一 十 
姐姐 十 十 十 十 一 
妹妹 十 十 十 一 一 





图 8.29 X RARE 











《现代 汉语 词典 》 中 对 上 述 杀 属 词 的 释义 是 : 





SN. 亲属 中 同辈 而 年 纪 比 自 己 大 的 男子 。 








种种: 亲属 中 同 幸而 年 纪 比 自己 小 的 男子 。 





姐姐 : a RISE USE ZG EC CANES. 





妹妹 : 亲属 中 同 幸而 年 纪 比 自己 小 的 女子 。 


如 琳 我 们 把 上 述 羔 属 词 的 义 素 矩阵 与 它们 在 《现代 汉语 词典 》 中 的 
释义 相 比 较 ， 残 可 以 看 出 ， 义 素 和 矩阵 反映 了 相应 杀 属 词 的 基本 语义 特 
征 ， 它 们 与 词典 中 的 释义 是 彼此 对 等 的 。 





由 此 可 见 ， 义 素 分 析 法 是 语义 形式 化 描述 的 一 种 好 办 法 。 





在 义 素 算 阵 中 ， 一 般 标 以 二 元 对 立 的 +、-” 写 ,但 有 时 二 元 对 并 用 


不 上 ， 也 可 以 采用 别 的 标示 办 法 。 例 如 ， 美 国语 言 学 家 奈 达 E.A. 
Nida) 在 分 析 英 语 中 的 rn CH) 、walk《〈 走 ) 等 七 个 表示 人 的 肢体 活 
动 的 词 的 语义 时 ， 列 出 了 如 下 的 义 系 矩阵 : 





总 有 一 上 肢 胶体 接触 地 接触 地 面 
接触 地 面 面 的 顺序 的 肢 数 

run 一 一 2 

walk 十 1—2 1-2 2 

hop - 11-1722 -9 ] 

skip 一 E a 2 

jump - 2 

dance 十 变异 但 有 韵律 2 

crawl 十 4 4 








图 8.30 X RARE 








在 这 个 义 素 矩 阵 中 ， [总 有 一 胶 接 触 地 面 ] 这 个 义 素 有 二 元 对 立 ， 
用 “+、-” 号 表示 ， [肢体 接触 地 面 的 顺序 ] 这 个 义 素 没有 二 元 对 立 ， 
用 “1-1-1-2”..…. 等 这 样 的 数目 字 表 示 , “1-2-1-2” 表 示 下 上 肢 轮 换 地 动作 : 
先 左 脚 - 后 右 脚 - 先 左 脚 - 后 右 脚 ， 或 者 先 右 脚 -后 左 脚 - 先 右 脚 -后 左 
HH. “1-1-1/2-2-2” 表 示 下 肢 不 轮换 地 动作 ;“1-1-2-2” 表 示 左 脚 右 脚 每 两 
次 轮换 地 动作 ; “1-3-2-4” 表 示 上 上肢 和 下 肢 轮 换 地 动作 。 [接触 地 面 的 胶 
数 ] 这 个 义 素 也 没有 二 元 对 立 ， 用 数字 表示 接触 地 面 的 胶体 的 数目 。 

















义 素 分 析 法 在 分 析 杀 属 词 、 摆 衔 词 等 方面 获得 相当 可 观 的 成 绩 ， 其 
应 用 范围 正在 扩大 ， 然 而 ， 至 今 为 止 ， 还 没有 见 到 应 用 义 素 分 析 法 来 全 
面 当 地 分 析 某 一 语言 的 整个 词汇 系统 的 成 果 。 





英语 词典 中 单词 的 的 定义 描述 ， 也 采用 了 这 样 的 义 素 分 析 法 。 例 
如 ， 


boy=male child; woman=female adult 


girl=female child; child=young human 


man-male adult; adult=grown-up human 








从 这 些 定义 中 可 以 很 容易 抽取 出 一 个 由 义 素 结 点 构成 的 “层级 体 
系 ”(hierarchical system) ， 每 个 结 点 都 与 一 些 特征 连接 ， 形 成 树 形 结构 
(tree structure) 。 如 图 8.31 所 示 。 





human 
adult child 
(+adult) (—adult) 
man woman boy girl 
(+male) — (—male) (-male) — (—male) 





图 8.31 义 素 组 成 的 树 形 结构 





图 8.31 的 树 形 结构 层级 中 ， 结 点 之 间 存 在 包含 的 关系 。 





所 谓 “ 包 含 关 系 ” 可 以 这 样 来 定义 : 概念 Cl 包 强 概念 C2， 当 且 仪 当 
所 有 C1 的 属性 同时 也 都 是 C2 的 属性 时 。 但 是 C2 的 属性 未 必 都 是 C1 的 属 
性 。 根 据 这 个 定义 “adult (是 一 个 成 年 人 ) ”包含 “man( 是 一 个 男 
人 )”， 因 为 所 有 “adult( 成 年 人 ) ”的 属性 也 都 是 “man〈 男 人) ”的 属 
性 ， 但 是 “male (BPE) ”作为 “man《〈 男 人 ) ”的 属性 ， 却 未 必 一 定 
是 “adult( 成 年 人 ) ”的 属性 。 


图 8.31 所 示 的 这 种 包含 关系 也 被 称 为 “分 类 体系 ”(classification 
system) 。 在 一 个 分 类 体系 中 ， 包 含 关 系 具 有 传递 性 。 在 每 一 个 上 层 结 


扩 的 特征 ， 痢 可 以 传递 给 下 层 结 皮 ， 被 下 层 结 点 以 默认 的 方式 继承 。 





这 种 默认 继承 的 基础 是 类 成 员 原 则 : 系 一 个 类 的 定义 特征 为 这 个 类 
的 所 有 成 员 共 至 。 





boy 是 child 的 一 个 次 类 ， 因 此 boy 应 该 具有 所 有 child 的 特征 (否则 一 
个 boy 束 不 可 能 是 一 个 child〉 。 根 据 图 8.31 中 的 树 形 结构 可 以 推演 出 : 
一 个 boy 应 该 有 “+male” 和 “-adult* 的 特征 。 


在 特殊 情况 下 ， 某 些 特殊 的 次 类 可 能 会 “ 拦 继 ”(overwrite)〉 上 层 节 
点 的 属性 ， 例 如 “penguin (CARS) ”虽然 是 “bird CE) ”的 次 类 ， 但 是 ， 
却 不 能 飞 。 这 说 明 ， 树 形 结构 中 的 默认 继承 关系 还 是 有 缺陷 的 。 


图 8.31 中 的 树 形 结构 实际 上 也 是 很 多 现 有 的 知识 本 体 Contology) 
的 结构 ， 在 很 大 程度 了 体现 了 人 人 们 一 直 在 研究 的 知识 本 体 。 最 典型 的 知 
识 本 体 的 例子 是 动 植物 的 分 类 体系 ， 这 样 的 分 类 体系 也 是 树 形 结构 。 








形式 化 的 概念 层级 体系 现在 正 趋 向 于 越 来 越 复 杂 。 这 是 因为 现在 的 
概念 层级 体系 允许 多 重 分 类 和 多 重 继承 。 在 这 样 的 情况 下 ， 概 念 的 层级 
体系 就 不 再 是 一 个 树 形 结构 ， 而 是 一 个 相互 交织 的 网 络 Cnetwrok) ， 
甚至 可 能 是 特征 的 置换 形成 的 网 格 〈lattice) ， 如 图 8.32 所 示 。 


top 


+human +male —adult 十 adult 一 male —human 





+human 二 human +male +human +human +adult —human 一 adult +adult -human 
-Hnale —adult —adult +adult —male +male +male —male —male —male 








boy man girl woman 





图 8.32 ”网 格 结构 


在 图 8.32 中 ，adult 和 male 这 两 个 特征 分 别 变 成 了 +adult, -adult， 
+male 和 -male 四 个 特征 ， 它 们 提升 到 和 +human 和 -human 特 征 同 处 一 个 层 
面 ， 这 些 特征 甚至 可 以 和 -human 特 征 结合 。 N 


这 样 的 网 格 结构 有 一 些 优点 。 首 先 特征 都 是 互 不 相关 的 ， 除 非 我 们 
规定 两 个 特征 具有 互 斥 的 性 质 〈 如 -male 和 +male) 。 这 样 所 有 彼此 兼容 
的 特征 都 可 以 结合 起 来 ， 用 来 定义 所 有 可 能 的 概念 “形成 所 谓 “ 概 念 化 
产物 ”) 。 同 时 网 格 结构 也 以 显 式 的 方式 说 明 哪些 特征 组 合 是 不 可 能 
的 。 








此 外 ， 图 8.32 中 网 格 结构 的 效率 高 于 图 8.31 中 的 树 形 结构 。 在 网 格 
结构 中 所 有 的 结 点 共享 male 这 个 特征 ， 但 是 在 树 结 构 中 不 同 的 节点 需要 
重复 引入 这 个 特征 (例如 adult 和 child 的 下 层 节 点 ) ， 这 可 能 会 导致 “多 
重 分 义 定 义 ”(multiple divergent definition) 。 图 8.32 中 的 网 格 结构 不 会 
将 一 个 和 层级 有 关 的 优先 顺序 强加 到 特征 上 ， 但 在 图 8.31 的 树 形 结构 中 
却 存 在 这 样 的 优先 顺序 : human 特 征 优 先 于 adult，adult 优 先 于 male。 但 
是 ， 目 前 普通 人 还 难以 从 理论 上 解释 为 什么 会 存在 这 样 的 优先 现象 。 


这 两 种 结构 的 另外 一 个 不 同 之 处 是 : 图 8.32 的 网 格 结构 中 可 以 存在 
巨 量 的 内 部 特征 组 合 的 结 点 ， 但 是 这 些 结 点 在 人 们 的 概念 中 可 能 并 不 存 
在 ， 在 很 多 语言 中 也 没有 相应 的 表达 方式 。 树 形 结构 和 网 格 结构 都 是 数 
学 结构 ， 比 较 抽象 ， 自 然 语言 中 的 词汇 体系 并 不 会 完全 遵循 网 格 结构 的 
规则 或 树 形 结构 的 规则 ;虽然 网 格 结构 可 以 生成 所 有 符合 逻辑 的 概念 ， 
但 是 ， 在 目 然 语言 中 ， 仅 仅 那 些 能 够 有 效 地 帮助 交际 的 概念 才 可 能 形成 
词汇 ， 参 与 到 目 然 语言 的 词汇 体系 中 。 这 是 自然 语言 与 数学 结构 的 差 
异 。 我 们 在 上 自然 语言 处 理 的 研究 中 ， 应 当 注 意 到 这 样 的 差异 。 




















在 自然 语言 的 计算 机 处 理 中 ， 机 器 词典 的 建造 是 一 个 十 分 重要 的 工 
作 。 机 器 词典 也 就 是 电子 词典 ， 它 是 存 贮 在 磁盘 、 光 盘 、EPROM (可 
探 可 编程 只 读 存 贮 器 ) 等 介质 上 可 由 计算 机 随意 访问 的 词典 ， 其 中 要 存 
贮 自 然 语 言 处 理 所 需 要 的 多 种 信息 ， 包 括 词 的 语音 信息 、 语 法 信息 和 语 
义 信 息 。 在 机 器 词典 中 的 语义 信息 ， 通 常 是 用 直接 存 贮 每 个 词 的 理性 意 
X (XM) 的 办 法 来 进行 的 ， 也 就 是 像 普 通 词 典 那样 ， 将 每 个 词 条 对 应 
的 概念 加 以 枚 举 和 解释 。 但 是 ， 用 这 样 的 办 法 不 仅 要 占用 巨大 的 存 贮 空 
间 ， 而 且 ， 也 难于 判别 同义词 、 近 义 词 在 理性 意义 上 的 差别 ， 难 于 确定 
词 与 词 之 间 的 搭配 关系 。 














如 果 采 用 义 素 分 析 法 来 建造 机 器 词典 ， 束 可 以 解决 这 些 问题 。 








第 一 ， 由 于 在 机 器 词典 中 ， 词 条 不 再 以 词 的 义 项 来 存 贮 ， 而 是 以 义 
素来 存 凡 ， 束 可 以 使 用 较 少量 的 义 素 ， 对 大 量 的 、 难 以 穷尽 枚 举 的 词义 
作 形 式 化 的 描述 。 当 然 ， 由 于 义 素 要 代表 广阔 纷繁 的 大 干 世 界 ， 它 的 数 
量 也 是 相当 大 的 。 迄 今 为 止 ， 我 们 还 说 不 清 现代 汉语 中 大 概 有 多 少 个 义 
素 ， 这 个 问题 的 解决 还 有 待 时 日 。 从 实用 的 目的 出 发 ， 在 上 自然 语言 处 理 
系统 中 ， 我 们 可 以 建立 不 同 领域 、 不 同 用 途 的 义 素 系统 ， 可 以 根据 有 关 
的 要 求 逐步 从 概念 中 分 解 出 义 素 ， 也 可 以 采用 目标 驱动 的 途径 来 试探 性 
地 建立 义 素 系统 。 在 建立 义 素 系统 时 ， 我 们 应 该 注意 到 义 素 的 明晰 性 、 
联系 性 、 完 备 性 、 易 解释 性 、 易 理解 性 以 及 经 济 性 等 原则 。 














第 二 ， 通 过 对 机 器 词典 中 不 同 义 素 集合 内 的 各 个 义 素 的 分 析 比 较 ， 
计算 机 可 以 比较 容易 地 找 出 不 同 单词 在 词义 上 的 细微 差别 。 





例如 ， 用 义 素 分 析 法 ， 汉 语 中 的 “陆军 、 海 军 、 空 军 ” 三 个 词 的 义 素 
表达 式 如 下 : 


Bi: LBA (C [在 陆地 ] [作战 的 ] EC [通常 由 ..….. 组 成 ] 
[步兵 ] DER] [RFR] [TER] [KER] 各 [专业 部 队 」} 





EE. [EN] {L ERE] 【作战 的 ]}f{ DES EH..... 2H] 
[水 面 舰艇 ] [潜艇 ] [海军 航空 兵 ] [海军 陆 战 队 ]} 各 [专业 部 
Bl 


TE: LER] (C eee] [MARK] MEC. DERA] 各 
[航空 兵部 队 」 [空军 地 面部 队 」} 


在 上 面 的 三 个 义 素 表达 式 中 ， 义 素 写 在 方 括 写 内 ， 同 一 类 型 或 相互 
配合 的 义 素 写 在 同一 花 括 弧 里 。f 是 结构 式 的 标志 ， 意 思 是 “适用 范 
轩 ”。“ 各 ”不 是 一 个 义 素 ， 而 是 一 个 标志 ， 它 表示 锌 标志 的 义 系 可 以 分 
ft AFAR RR E 








从 上 述 的 义 素 表达 式 中 ， 我 们 可 以 清楚 地 看 出 , "Bü EU. A 
军 ” “空军 ”这 三 个 词 的 共同 点 是 ， 它 们 都 有 [军队 」 MERK] 等 义 
素 ， 不 同 点 是 : 











QD 它们 的 作战 地 域 不 同 : 陆军 的 义 素 为 [在 陆地 ] ， 海 军 的 义 素 为 
并 


它们 的 组 成 不 同 :陆军 的 义 素 为 { [通常 由 .…… 组 成 ] [步兵 ] 
[炮兵 ] [装甲 兵 ] [TER] [KER] 各 [专业 部 队 」}， 海 盏 的 
XERA DERA... ZA] KERM] Lee] [海军 航空 兵 ] 
[海军 陆 战 队 」 各 [专业 部 队 ]」}， 空 军 的 义 素 为 { [通常 由 ..….. 组 成 ] 
各 [航空兵 部队] [空军 地 面部 队 」}。 





又 如 ， 汉 语 的 “ 手 ” 和 “ 脚 * 两 个 词 的 义 素 表达 式 为 : 


手 : [ate] LAMA] { [位 于 .…...]」 DERE] 的 [末端 ]} 
[能 使 用 工具 | 


fal: Las] [人 体 的 ]{ [位 于 .….] [- 上 上 肢 ] 的 [末端] } 
[能 行动 ] 


其 中 ， 义 素 间 的 “的 ”是 表示 领 属 关 系 的 标志 。 


从 它们 的 义 素 表达 式 中 可 以 看 出 ,，“ 手 ”和 “ 脚 ” 这 两 个 词 的 共同 点 
: 它们 都 有 上 器官] LAPIN] ER. 


gm 


不 同 点 是 : 


二 第 们 的 位 置 不 同 FEXR AL MM Feral De ERE] BS DR 
p] },，“ 脚 ”的 义 素 为 { [位 于 ..…...]」 D-EHE] 的 [末端 ] ) 


@ 它 们 的 功能 不 同 ,，“ 手 ”的 功能 是 [能 使 用 工具 ] ， 脚 的 功能 是 
[能 行动 ] 。 


Fan, "Ab". "Ru". "Mp. "RUUUUAMin HJ CR RIAU: 
W: [- 用 水 」】 [WERK] [+ 不 断 翻动 ] 【- 加 淀粉 汁 ] 
a: [- 用 水 」 上 [上 - 油 量 大 ]」 [+ 不 断 翻 动 ] [+ 加 深 粉 半 ] 
KE: L-HDK] [+ 油 量 大 ] -不 断 翻 动 ] 
Hi: [- 用 水 」[- 油 量 大 ]」[- 不 断 翻动 ] 


从 它们 的 义 素 表达 式 可 以 看 出 ,，“ 炒 *、“ 燃 "、“ 炸 ”“ 遍 ”这 四 个 词 
的 共同 点 是 [- 用 水 ]， 也 就 是 在 襄 饪 时 不 用 水 。 不 同 点 





we: “HD. RN. ANP ANC AEK] ) ， 而 “ 炸 ” 的 用 油 量 
XA CHIER] ) , mend) C [+ 不 断 翻 动 ] ) ， 

而 “ 炸 ”? 和 “ 融 * 不 要 不 断 翻动 (【- 不 断 翻动 ),，“ 炒 ”时 不 加 淀粉 汁 ( L- 
MENIT] 〉,，“ 燃 ”时 要 加 淀粉 汗 ( [+ 加 演 粉 汁 」}。 


由 于 义 素 表 达 式 是 词义 的 一 种 形式 化 的 表示 ， 因 而 计算 机 易于 找 出 
单词 在 词义 上 的 不 同 点 ， 发 现 它 们 的 细微 差别 。 


第 三 ， 通 过 义 系 分 析 法 ， 计 算 机 可 以 了 解 到 词 与 词 搭 配 时 在 语义 上 
要 受到 什么 样 限制 。 


例如 , “说 话 ” 和 “ 想 ” 这 两 个 词 的 义 素 表达 式 中 ， 痢 要求 动作 友 出 者 
具有 [+ 人 j」 这 个 义 素 ， 而 “椅子 ”和 “ 鱼 ” 这 两 个 词 的 义 素 表达 式 中 ， 都 
不 包含 DEA] 这 个 义 素 ， 因 此 ， 在 一 般 情 况 下 , ATER, MEW 
话 ” 这 样 的 句子 在 语义 上 是 不 能 成 立 的 ， 尽 管 它们 在 语法 上 是 正确 的 。 
这 将 有 助 于 计算 机 判断 句子 在 语义 上 是 否 合 理 。 








当然 ， 在 一 定 条 件 下 ， 例 如 ， 在 童话 故事 中 ， 不 包含 [+ 人 j」 这 个 
义 素 的 “椅子 "和 “ 鱼 ”?， 也 可 以 与 “说 话 ” 和 “ 想 ” 连 用 。 这 时 , “椅子 在 
想 ”，“ 鱼 在 说 话 ” 这 样 的 句子 在 语义 上 也 就 可 以 成 立 了 。 不 过 ， 这 只 是 
在 章 话 中 为 了 特定 的 目的 使 “椅子 "和 “和 鱼 ”临时 地 获得 了 [+ 人 j」 的 义 
素 ， 在 一 般 情况 下 并 不 能 这 样 做 。 有 了 时， 为 了 达到 修辞 的 效果 ， 可 以 把 
动物 比喻 为 人 人， 我们 说 “黄河 在 哆 哮 ”， 使 非 动 物 的 “黄河 ”临时 地 获得 了 
[+ 动物 ] 这 一 义 素 ， 我 们 说 “黄鼠狼 给 鸡 拜 年 "， 使 动物 “黄鼠狼 ”临时 
地 获得 了 [+ 人 j」 这 一 义 素 。 这 种 情况 叫做 “隐喻 ”(metaphor)〉 。 但 
是 ， 在 通常 的 情况 下 ， 我 们 并 不 能 这 样 做 。 隐 喻 存在 的 这 些 事实 并 不 足 
以 否定 词语 在 组 合 时 必须 有 一 定 的 语义 限制 。 因 而 我 们 对 于 词语 在 组 合 
时 的 语义 限制 仍然 是 必要 的 和 有 效 的 。 


不 过 ， 我 们 对 于 隐喻 也 不 能 掉以轻心 。 隐 喻 是 自然 语言 中 普 衣 存在 
的 一 种 现象 ， 这 种 现象 一 直 是 修辞 学 (rhetoric) 研究 的 重要 内 容 。 例 
如 ， 在 “历史 的 车 轮 深 深 向 前 ”这 个 句子 的 意思 是 历史 发 展 的 轨迹 束 像 车 
轮 那样 滚滚 癌 前 。 这 是 一 个 隐喻 。 在 这 个 隐喻 中 ， 用 "车轮 这 个 概念 来 
比喻 “历史 发 展 的 轨迹 ”这 个 概念 , “和 车轮? 是 我 们 熟悉 的 、 比 较 具 体 和 直观 
的 、 比 较 容 易 理 解 的 概念 ， 而 “历史 发 展 的 轨迹 ? 则 是 抽象 的 、 不 太 容 易 
理解 的 概念 。 通 过 “车 轮 ” 这 样 的 隐喻 ， 我 们 对 于 “历史 发 展 的 轨迹 ?这样 
比较 抽象 的 、 不 太 容 易 理 解 的 概念 获得 了 更 加 明确 的 、 更 加 形象 的 认 


iH. 








在 修辞 学 中 ， 隐 喻 作为 一 种 “ 秤 格 ”， 一 个 完整 的 隐喻 一 般 由 “ 喻 
体 ” 和 “本 体 ?" 两 部 分 构成 ， 喻 体 通 党 是 我 们 熟悉 的 、 比 较 具 体 和 直观 的 、 
比较 容易 理解 的 一 些 概念 范畴 ， 本 体 则 是 我 们 后 来 才 认 识 的 、 抽 象 的 、 
不 太 容 易 理解 的 概念 范畴 。 在 我 们 上 和 面 的 例子 中 ,，“ 和 车 轮 ” 就 是 喻 
体 ,“ 历 史 发 展 的 轨迹 ?就 是 "本体 ”。 


在 认 知 语言 学 〈cognitive linguistics) 中 ， 喻 体 叫 做 “ 始 源 
J” (source domain) ， 本 体 叫 做 “目标 域 ”(target domain) 。 在 我 们 上 
面 的 例子 中 ,，“ 和 车轮” 就 是 始 源 域 ,，“ 历 史 发 展 的 轨迹 ”就 是 目标 域 。 隐 喻 
的 认 知 力量 就 在 于 将 始 源 域 的 图 式 结构 映射 到 目标 域 上 ， 使 人 们 通过 始 
源 域 的 图 式 结构 ， 对 于 目标 域 得 到 更 加 清晰 的 认识 。 因 此 ， 认 知 语言 学 
认为 ， 隐 喻 不 但 是 一 种 修辞 手段 ， 而 且 还 是 人 的 一 种 思维 方式 ， 隐 喻 普 
遍地 存在 于 人 们 的 各 种 认 知 活动 中 。 





就 是 在 以 严谨 著称 的 科学 技术 的 术语 (term) 中 ， 也 存在 大 隐喻 。 


术语 是 人 类 科学 知识 在 自然 语言 中 的 结晶 ， 古 人 类 认 知 活动 的 重要 
产物 。 因 此 ， 在 术语 中 ， 当 然 也 应 当 存 在 着 隐喻 。 通 过 隐喻 的 “ 始 源 


域 " 帮 助人 们 更 加 清晰 地 认识 “目标 域 ”， 应 当 是 术语 命名 的 一 种 重要 方 
Ae 








下 面 ， 我 们 以 计算 机 科学 中 的 术语 为 例子 ， 来 说 明 隐喻 在 术语 命名 
中 的 作用 。 


计算 机 科学 中 的 “防火 墙 ”(fire wall) 这 个 术语 ， 就 是 使 用 隐喻 命 
名 的 术语 。 它 的 始 源 域 是 指 建筑 物 中 用 于 防止 火灾 的 墙 ， 它 的 目标 域 是 
指 置 于 因特网 和 用 户 设备 之 间 的 一 种 安全 设施 ， 通 过 识别 和 筛选 ， 防 火 
墙 可 以 阻止 外 部 未 被 授权 的 或 具有 洪 在 破坏 性 的 访问 。 计 算 机 科学 中 本 
来 没有 真实 的 具体 的 “防火 墙 >， 通 过 “防火 墙 ? 这 个 始 源 域 ， 人 们 可 以 更 
加 清楚 地 理解 “ 置 于 因特网 和 用 户 设 备 之 间 的 一 种 安全 设施 ”的 这 个 抽象 
的 概念 范畴 。 











计算 机 科学 中 的 “病毒 ”(virus〉 这 个 术语 ， 它 的 始 源 域 是 : DUE 
更 小 的 病原 体 ， 没 有 细胞 结构 ， 但 有 遗传 、 变 异 等 生命 特征 ， 一 般 能 通 
过 阻挡 细菌 的 过 滤器， 多 用 电子 显微镜 才能 看 见 。 而 它 的 目标 域 则 是 : 
一 种 有 害 的 、 起 破坏 作用 的 程序 。 通 过 “病毒 * 这 个 始 源 域 ， 人 们 可 以 认 
识 到 ， 一 旦 在 计算 机 运行 “病毒 "这 种 程序 ， 计 算 机 就 会 像 生物 染 上 了 病 
毒 一 样 ， 给 用 户 带 来 灾难 。 


计算 机 科学 中 的 “ 树 ”(tree〉 这 个 术语 ， 它 的 始 源 域 是 ， 木 本 植物 
的 通称 。 而 它 的 目标 域 则 是 : 计算 机 算法 中 表示 结 点 之 间 的 分 枝 关 系 的 
一 种 非 线性 的 结构 。 通 过 “ 树 ” 这 个 始 源 域 ， 人 们 可 以 把 这 种 抽象 的 非 线 
性 结构 想象 成 目 然 界 中 的 树 ， 从 而 对 这 个 概念 获得 更 加 清晰 的 理解 。 


在 计算 机 科学 中 ， 像 这 样 使 用 隐喻 来 命名 的 术语 还 很 多 ， 例 
"d, "FB. WAR. sup. pev" Se 


我 在 《现代 术语 学 引 论 》 岂 ”中 指出 ， 术 语 的 命名 应 当 遵 循 准确 
性 、 单 义 性 、 系 统 性 、 语 言 的 正确 性 、 简 明 性 、 理 据 性 、 稳 定性 、 能 产 
性 等 原则 。 











使 用 隐喻 的 方法 来 给 术语 命名 ， 与 这 些 原 则 是 不 是 矛盾 呢 ? 我 认为 
并 不 饶 盾 。 因 为 隐喻 是 人 类 的 一 种 重要 的 思维 方式 ， 在 术语 命名 中 当然 
也 应 该 使 用 这 样 的 思维 方式 ， 使 用 隐喻 来 给 术语 命名 ， 不 仪 与 这 些 原则 
不 矛盾 ， 而 且 能 够 更 好 地 实现 这 些 原则 。 


前 几 年 学 术 界 在 讨论 计算 机 科学 中 “ 染 单 ” (menu) 这 个 术语 的 时 
候 ， 一 些 学 者 提出 ， 计 算 机 科学 中 的 “菜单 "这 个 术语 中 并 没有 “ 沫 ?， 与 
事实 不 符 ， 因 此 ， 他 们 强烈 地 反对 使 用 “来 单 ” 这 个 术语 ， 主 张 使 用 “ 选 
单 ” 来 代 奉 “ 亲 单 。 后 来 ， 全 国 科学 技术 名 词 审定 委员 会 也 大 力 推广 “ 选 
单 " 而 反对 使 用 “菜单 ”。 可 是 ， 在 大 多 数 计算 机 用 户 中 ,“ 沫 单 * 这 个 术 
语 仍然 广 为 使 用 ， 而 “选单 "这 个 术语 却 很 难 推 广 。"“ 沫 单 ”(menu) 这 个 
术语 的 始 源 域 是 :记录 经 过 京 调 供 下 饭 或 下 酒 的 己 菜 、 鱼 肉 等 的 单子 。 
而 它 的 目标 域 则 是 ;由 辱 干 可 供 选 择 的 项 目 组 成 的 表 。 在 计算 机 显示 屏 
上 显示 出 来 的 沫 蛙 ， 用 户 可 以 用 光标 来 选择 ， 就 像 人 们 在 吃饭 的 时 候 操 
菜 一 样 方便 。 使 用 隐喻 方法 命名 的 “菜单 "这 个 术语 ， 准 确 、 鲜 明 、 生 
动 ， 符 合 术语 的 命名 原则 ， 所 以 它 才 为 广大 用 户 喜 闻 乐 见 ， 始 终 没有 被 
全 国 科 学 技术 名 词 审 定 委员 会 大 力 推广 的 “选单 "这 个 术语 所 蔡 代 。 











这 种 情况 说 明 ， 在 术语 的 命名 中 ， 我 们 不 能 拒绝 使 用 隐喻 这 种 重要 
的 方法 。 隐 喻 是 人 类 重要 的 思维 方式 ， 在 术语 命名 中 不 能 避 开 这 种 重要 
的 思维 方式 。 





既然 在 术语 命名 中 不 能 忽视 隐喻 ， 那 么 ， 在 自然 语言 处 理 中 ， 当 然 
就 更 不 能 忽视 隐喻 了 。 目 前 。 我 们 在 隐喻 的 目 然 语 言 处 理 方面 ， 已 经 取 





得 了 初步 的 成 绩 。 


"BINA WX 


要 进行 某 种 语言 的 义 素 分 析 ， 首 先 要 求 对 该 语言 的 词汇 体系 建立 
起 “语义 场 ”(semantic field) 。 





“语义 场 ”这 一 术语 是 德国 学 者 伊 普 森 (G. Ipse) 于 1924 年 提出 来 
的 。20 志 纪 30 年 代 初 ， 男 一 位 德国 学 者 特 里 尔 CJ. Trier) 提出 了 系统 的 
语义 场 理 论 。 特 里 尔 的 学 生 魏 斯 产 尔 伯 CL. Weisgerber) 在 30 年 代 曾 与 
特 里 尔 合 作 进 行 研究 ， 第 二 次 世界 大 战 之 后 ， 他 又 继续 研究 语义 场 理 
论 ， 但 是 。 在 20 世 纪 30 年 代 和 40 年 代 ， 语 义 场 理 论 影响 是 很 有 限 的 。 到 
了 20 世 纪 50 年 代 ， 乔 姆 斯 基 提 出 了 转换 生成 语法 ， 美 国人 类 学 家 叉 提 出 
了 义 素 分 析 法 ， 语 义 场 理论 才 引 起 普遍 的 关注 。 














近年 来 ， 我 国学 者 也 开始 研究 汉语 的 语义 场 。 


北京 大 学 贾 彦 德 教授 在 《汉语 语义 学 》 A (1992 年 ) 一 书 中 ， 系 
统 地 提出 了 汉语 的 语义 场 理 论 。 北 京 语 言 大 学 语言 信息 处 理 研 究 所 张 普 
教授 在 前 人 研究 的 基础 上 ， 结 合 自然 语言 计算 机 处 理 的 实际 ， 提 出 
了 “ 场 型 * 的 概念 ， 进 一 步 深 化 了 对 汉语 语义 场 的 研究 。 














“ 场 ” 原 是 物理 学 术语 ， 如 电场 、 人 磁场 、 引 力 场 等 。 物 理 场 即 相 互 作 
用 场 ， 是 物质 存在 的 基本 形态 之 一 。 场 要 占 一 定 的 空间 ， 具 有 空间 性 ， 
后 来 进一步 引申 为 分 布 厦 某 一 物理 量 或 数学 函数 的 空间 区 域 本 里 ， 不 一 
定 有 物质 存在 的 形式 ,“ 场 ”的 概念 进一步 虚 化 了 ， 但 仍然 具有 空间 性 。 


语义 场 是 词义 形成 的 系统 ， 它 是 基于 概念 的 天 系 场 ， 是 词义 与 词义 
之 间 构 成 的 一 种 完全 虚 化 的 、 非 物质 的 空间 领域 。 语 义 场 的 空间 性 体现 


为 构成 词义 的 义 系 的 分 布 情况 。 词 义 总 是 在 语义 场 中 与 其 它 词义 发 生 相 
互 作用 的 。 通 俗 地 说 ， 奉 干 个 意义 上 紧密 相 联 的 词义 ， 通 向 归属 于 一 个 
忆 称 之 下 ， 束 构成 了 语义 场 。 


语义 场 可 以 进一步 分 为 词汇 场 Cexical field) 和 联想 场 (associative 
field) 。 词 汇 场 是 静态 的 ， 它 表现 为 词义 与 词义 之 间 的 聚合 关系 ; 联想 
场 是 动态 的 ， 它 表现 为 词义 与 词义 之 间 的 组 合 关 系 。 我 们 在 本 中 讲 的 
语义 场 主要 是 词汇 场 ， 为 了 称呼 上 的 方便 ， 在 不 妨碍 读者 理解 时 ， 我 们 
把 词汇 场 简 称 为 语义 场 。 至 于 联想 场 ， 我 们 将 在 语义 网 络 这 一 市 中 进 一 
步 说 明 。 














词汇 场 是 静态 的 语义 场 ， 这 种 语义 场 中 ， 语 义 与 语义 之 间 的 关系 是 
各 种 类 有 聚 天 系 。 下 面 是 按 词 义 分 出 的 各 种 语义 场 。 


EBENE XE. HRS JL. EWS, .2..2 
动物 场 : RB. HE. D. ^p. CE. DE. SOS. 222 
人 类 场 : BA. BAY LA. HAE. BA, one 
mE: x. 4m. Wü. Eb. BU. ME. TE. L8. 
RRA: SUR. PHP. POM. 4343. WHEL... 
PEM: 红色 、 梭 色 、 黄 色 、 绿 色 、 兰 色 、.……. 
物 态 场 : 固体 、 液 体 、 气 体 、 胶 体 、.…… 
抽象 场 : 思想 、 计 划 、 意 志 、 人 性 格 、.…… 





这 些 语义 场 还 可 以 进一步 细 分 。 例 如 ,“ 杀 属 场 ”" 可 按 “ 直 系 "“ 劳 


系 ” “父系” 等 关系 进一步 细 分 ， 形 成 更 小 的 语义 场 ， 细 分 后 而 形成 的 
语义 场 称 为 “ 子 场 "， 不 能 再 进一步 细 分 的 子 场 ， 称 为 “小 子 场 ”， 这 些 语 
义 场 也 可 以 进一步 概括 与 合并 。 例 如 ,，“ 动 物 场 、“ 植 物 场 * 可 进一步 概 
括 为 “生物 场 ” 概括 后 形成 的 语义 场 称 为 " 母 场 ”。 





不 同类 型 的 语义 场 称 为 场 型 。 汉 语 中 主要 的 场 型 如 下 : 
1. 分 类 场 型 


分 类 场 型 中 ， 处 于 同一 语义 场 的 各 个 词义 都 是 指 同一 类 事物 、 运 动 
或 性 状 。 分 类 场 型 一 般 是 多 层次 的 。 例 如 ， 下 面 表 示 印 刷 术 的 语义 场 就 
是 一 种 分 类 场 型 : 








印刷 术 
Ec 
印 版 印刷 计算 机 印刷 
Ju. ue 
凸版 印刷 平版 印刷 四 版 印刷 打印 激光 照排 
T4 n 
直接 凸版 印刷 ”间接 凸版 印刷 针 式 打印 “” 喷 墨 打印 ”激光 打印 


书刊 印刷 茶 胺 印刷 活字 印刷 9 针 打 印 ”16 针 打印 24 针 打印 


图 8.33 ”分 类 场 型 





在 语义 场 中 ， 上 一 层 的 词义 称 为 上 位 ， 下 一 层 的 词义 称 为 下 位 。 双 
方 紧 连 的 上 位 称 为 丰 接 上 位 ， 双 方 紧 连 的 下 位 称 为 直接 下 位 ， 最 下 层 的 
词义 不 再 含有 更 小 的 词义 ， 称 为 展位 ， 最 上 层 的 词 没有 上 位 ， 成 为 顶 
位 。 同 一 层次 的 词义 称 为 平 位 。 同 一 概念 的 在 干 个 词义 变 体 称 为 同位 。 
例如 ， [ST]. [RA], DE] 是 同位 ， 其 中 ， [ZF] Exi 
INEM, [RA], DEXE] 是 这 个 词义 的 变 位 。 











分 类 场 型 的 词义 关系 有 如 下 特点 : 








第 一 ， 上 下 词义 之 间 存 在 看 领 属 关 系 。 上 位 表示 语义 场 的 领域 ， 下 
位 表示 该 领域 中 的 分 类 ， 处 于 中 间 层 次 的 词义 ， 既 是 其 上 位 的 分 类 ， 又 
是 其 下 位 的 领域 。 例 如 ， 在 图 8.31 中 , “印刷 术 ?” 是 上 位 词义 ， 且 处 于 项 
位 ， 它 表示 这 一 语义 场 的 领域 是 “印刷 术 ”，“ 顺 礁 打 印 ” 是 下 位 词义 ， 且 
处 于 懈 位 ， 它 表示 “ 噶 量 打印 ”是 “印刷 术 ” 的 一 个 小 类 别 。“ 印 版 印刷 ”是 
处 于 中 间 层 次 的 词义 ， 它 是 其 上 位 词义 “印刷 术 ” 的 一 个 类 别 ， 又 是 其 下 
位 词义 的 领域 ， 因 而 “凸版 印刷 关 “平板 印刷 、“ 四 版 印刷 ”部属 于“ 印 版 
印刷 ”这 一 领域 。 

















第 二 ， 下 位 可 以 继承 上 位 的 基本 义 妹 。 例 如 ,“ 针 式 打印 “ 喷 黑 
打印 ” “BOGE EN ah EAR AK S EIST ENP A SEAR Rs “FT EN ROG 
照排 ”都 是 “计算 机 印刷 *”， 它 们 继承 了 上 位 “计算 机 印刷 * 的 基本 义 素 ; 
而 “计算 机 印刷 >? 和“ 印 版 印刷 ”都 是 “印刷 术 ”， 它们 继承 了 上 位 “印刷 
术 ” 的 基本 义 素 。 在 分 类 场 型 中 ， 越 是 上 层 的 词义 ， 共 同 义 素 越 少 ， 越 
是 下 层 的 词义 ， 累 计 继 承 的 共同 词义 越 多 ， 越 是 上 层 的 词义 ， 所 含 的 领 
域 越 大 ， 越 是 下 层 的 词义 ， 所 会 的 领域 越 小 ， 底 位 不 再 构成 新 的 语义 
场 ， 它 所 在 的 语义 场 称 为 最 小 子 场 ， 顶 位 所 在 的 母 场 称 为 最 大 母 场 。 








2. 构件 场 型 


构件 场 型 也 是 一 种 基本 场 型 。 在 构件 场 型 中 ， 处 于 同一 语义 场 的 各 
个 词义 不 是 指 同一 类 的 事物 、 运 动 或 性 状 ， 任 何 下 位 都 是 其 上 位 的 一 个 
构件 。 构 件 场 型 也 是 有 层次 的 。 例 如 ， 下 面 表示 “汽车 ”的 结构 的 语义 场 
就 是 一 种 构件 场 型 : 








车 头 ZR Y 驱动 总 成 底盘 车 尾 
发 动机 齿轮 箱 差 动 齿轮 
图 8.34 ”构件 场 型 





构件 场 型 的 词义 关系 具有 如 下 的 特点 : 


第 一 ， 上 位 和 下 位 之 间 是 整体 和 构件 的 关系 。 上 位 表示 一 个 整体 ， 
下 位 表示 整体 的 构件 。 例 如 ， 上 位 词义 “汽车 ”表示 一 个 整体 ， 下 位 词 
义 “ 齿 轮 箱 ” 表 示 这 个 整体 中 的 一 个 构件 。 处 于 中 间 层 次 的 词义 ， 既 是 上 
位 词义 的 构件 ， 又 是 下 位 词义 的 整体 。 例 如 ， 人 处 于 中 间 层 次 的 词义 “ 驱 
动 忆 成 "，” 是 上 位 词义 汽车 ”的 构件 ， 又 是 下 位 词义 “发 动机 ”、“ 齿 轮 
箱 ”“ 差 动 齿轮 ”的 整体 。 


























第 二 ， 在 构件 场 型 中 ， 不 是 下 位 继承 了 上 位 的 义 素 ， 而 是 上 位 抽取 
下 位 的 某 些 义 素来 集成 。 例 如 , “建筑 物 ” 由 “ 门 ? 和 * 窗 ”组 成 ， 构 
ESPA LEA] 和 [闭锁 」 等 表示 功能 的 义 素 ， 构 件 “ 窗 ”有 Lat J 
和 DEA] 等 表示 功能 的 义 素 ， 因 而 “建筑 物 ? 可 以 从 其 下 
位 “ 门 ? 和 * 窗 ”中 抽取 [HA] . LBISR] . [306] .. DEA] 等 表示 
功能 的 义 素 集成 为 目 己 的 义 系 。 当 然 ， 并 不 是 一 切 表示 功能 的 义 素 都 可 
以 这 样 从 下 位 构件 传递 到 顶 位 。 例 如 ， 在 “建筑 物 ” 中 有 “灯泡 ”这 个 构 
件 ， 但 是 构件 “灯泡 ?中 表示 功能 的 义 素 [发光 」 并 不 能 传递 到 项 位 " 建 
筑 物 ”而 作为 "建筑 物 ” 的 一 个 表示 功能 的 义 素 。 可 以 传递 到 顶 位 的 表示 
功能 的 义 素 应 该 是 下 位 构件 中 最 重要 的 义 素 。 可 见 ， 整 体 的 功能 可 以 从 
构件 的 功能 中 抽取 ， 但 并 不 等 于 其 构件 的 功能 的 上 总和。 构件 场 型 中 上 位 
义 素 与 下 位 义 素 之 间 的 关系 是 错综复杂 的 ， 还 有 符 我 们 进行 深入 的 研 


RS 


Tho 











3. 有 序 场 型 


分 类 场 型 和 构件 场 型 是 基本 场 型 ， 而 有 序 场 型 不 是 基本 场 型 。 有 厅 
场 型 是 基于 分 类 场 型 和 构件 场 型 的 一 种 特殊 场 型 。 在 有 序 场 型 中 的 所 有 
平 位 都 是 有 序 的 ， 它 们 除 分 别 共 有 分 类 场 型 或 构件 场 型 的 上 位 与 下 位 之 
间 的 传递 关系 之 外 ， 在 平 位 之 间 还 存在 着 顺序 关系 。 这 种 顺序 可 以 表现 
在 时 间 、 空 间 、 数 量 、 程 度 、 范 围 、 等 级 等 方面 。 例 如 ， 分 类 场 型 “ 军 
隐 ” 的 下 位 结 点 “少尉 、 中 尉 、 上 尉 、 大 尉 、 少 校 、 中 校 、 上 校 、 大 校 、 
少将 、 中 将 、 上 将 、 大 将 、 元 帅 ” 有 者 严 格 的 等 级 顺序 。 








具有 顺序 场 型 的 词义 关系 的 特点 如 下 : 





第 一 ， 同 一 层次 的 词义 排列 是 有 序 的 ， 这 一 有 序 关系 反映 了 客观 世 
界 的 有 序 性 。 例 如 ， 反 映 时 间 顺 序 的 季节 名 称 " 春 、 夏 、 秋 、 冬 "是 有 序 
的 ,“ 夏 "之 前 为 " 春 "，" 夏 "之 后 为 “ 秋 ”。 











第 二 ， 一 些 有 序 的 词义 是 封闭 型 的 ， 封 闭 型 的 词义 可 以 循环 。 例 
如 ， 一 年 四 季 “ 春 、 夏 、 秋 、 冬 ”是 周而复始 、 循 环 不 已 的 ， 既 没有 开 
台 ， 也 不 会 终止 。 


第 三 ， 一些 有 序 的 词义 是 非 封闭 型 的 ， 非 封闭 型 的 词义 不 可 以 循 
环 。 例 如 ， 表 示 学 位 的 词义 “学 士 、 人 硕士、 博士" 是 非 封闭 型 的 ， 学 海 无 
涯 ， 学 无 止境 ， 不 可 循环 。 











4. 对 立场 型 


对 立场 型 也 不 是 基本 场 型 ， 而 是 一 种 特殊 场 型 。 在 对 立场 型 中 ， 平 
位 的 词义 之 间 存 在 着 对 立 关 系 。 例 
如 ，“ 硬 ?和 “ 软 ”，“ 开 ”和 “ 关 ”,，“ 进 ?和 “ 退 ”，“ 生 ”和 “ 死 "”，“ 男 ?和 “ 女 ”， 
等 等 。 这 种 对 立 可 表现 在 性 质 、 状 态 、 运 动 方向 、 运 动 结果 、 所 处 位 
置 、 所 处 时 间 等 方面 的 义 素 对 立 。 例 如 ,“ 硬 ”和 * 软 "是 性 质 的 对 
立 ,，“ 进 ?和 “ 退 ” 是 运动 方 同 的 对 立 ,，“ 生 ”和 “有 死 ” 是 生命 的 开始 和 结束 ， 
是 运动 所 处 的 时 间 的 对 立 。 














对 立场 型 的 特点 是 : 


第 一 ， 一 些 对 立场 型 中 的 平 位 只 是 两 个 ， 非 此 即 彼 ， 不 存在 中 间 状 
态 。 这 种 对 立 叫 做 相反 对 立 。 如 “ 开 ” 和 "“ 关 ”， 不 是 “ 开 ”， 就 是 “ 关 ”， 不 
FERIRE, “AE AIG”, AEE”, ESE”, TEA ETE PTB 
as 
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第 二 ， 一 些 对 立场 型 的 平 位 不 只 两 个 ， 互 相对 立 的 两 个 平 位 处 于 平 
位 串 的 两 极 ， 它 们 之 间 还 存在 着 中 间 状 态 ， 这 种 对 立 叫 做 两 极 对 立 。 例 
如 ,，“ 进 ”和 “ 退 *?， 中 间 有 不 进 不 退 的 “ 停 * 这 种 状态 。 








5. 同 义 场 型 


同 义 场 型 是 一 种 特殊 场 型 。 在 同一 场 型 中 ， 同 位 和 变 位 的 理性 意义 
是 完全 相同 的 ， 只 是 附属 于 理性 意义 的 风格 、 色 彩 等 方面 的 义 素 不 一 
样 。 例 如 ,“ 计 算 机 ”与 “电脑 ” “犹豫 " 与 “迟疑 “妻子 “夫人 ”与 “ 老 


xg. 











严格 地 讲 ， 同 义 场 型 只 是 涉及 同位 和 变 位 的 关系 ， 它 还 不 能 成 为 一 


种 独立 的 场 型 。 


上 述 这 些 不 同 的 场 型 组 成 了 语义 总 场 。 在 语义 总 场 中 ， 场 与 场 之 间 
的 关系 主要 有 以 下 几 种 类 型 


1. KERZ 


AI SEM PRES DNA, KRHA KES 
小 的 构件 场 型 。 例 如 ， 分 类 场 型 “生物 场 " 之 下 ， 髓 套 厦 小 的 分 类 场 
型 “动物 场 "? 和 “植物 场 ”， “ND” LP REED NTR 
Aem. «Be. "rn". "RETO, PPA, OE 
Th". "£u". "Hp". “WUBI, RIP A WU PB RE 
AH" EJB. TEOFAN, HAAN FIBRO RE 
着 “ 手 "“ 臂 ”等 更 小 的 构件 场 型 。 





供 套 关系 反映 的 是 同一 类 场 型 之 间 的 关系 。 


2. 交叉 关系 





在 一 些 分 类 场 型 或 构件 场 型 中 ， 其 平 位 又 是 有 序 场 型 或 对 立场 型 。 
例如 ， 分 类 场 型 "军衔 的 各 种 下 位 词义 < 少尉 RR KR.. 
又 是 有 序 场 型 ， 构 件 场 型 “ 手 ”的 下 位 词义 “手指 "、“ 手 掌 "、“ 手 背 "等 又 
是 有 序 场 型 


交叉 关系 反映 的 是 不 同 场 型 之 间 的 关系 。 


3. 传递 关系 


传递 关系 是 指 一 种 场 型 中 的 词义 传递 到 男 一 种 场 型 之 中 。 例 如 ， 在 
HAER, XU A ASK”. "£40. "Hx b. DUB. "P 
脏 ”.………: 等 构成 ， 在 分 类 场 型 中 , “人 ”的 下 位 有 “男人 、 女 人 ”，“ 白 种 
As ERAN, “老年 人 、 中 年 人 、 青 年 人 、 未 成 年 人 ”, “中国 人、 美国 
人 、 德 国人 、...…...”，“ 军 人 、 工 人 、 商 人 ..…....” 等 。 如 果 将 构件 场 型 中 
的 “< 人 ”与 分 类 场 型 中 的 < 人 ”建立 传递 关系 ， 把 “< 人 ”的 所 有 构件 词义 传递 
到 分 类 场 型 + 人 ”的 各 种 词义 之 中 ， 就 可 以 使 分 类 场 型 中 各 种 < 人” 均 具有 
构件 场 型 中 的 < 人 ”的 构件 。 





显而易见 ， 传 递 和 天 系 也 是 不 同 场 型 之 间 的 关系 。 


4. 联想 关系 





不 同 场 型 之 间 以 及 同一 场 型 的 不 同 子 场 之 间 都 可 以 产生 联想 关系 。 
例如 , “水 兵 一 一 海 一 一 军舰 一 一 军港 ”之 间 可 以 产生 “ 牢 人 ， 目 然 环 
境 ， 武 占 ， 军 事 设 施 ” 之 间 的 联想 关系 。 联 想 关 系 可 用 于 人 句子 的 语义 分 
析 中 ， 它 可 以 揭示 句子 中 各 个 词义 之 间 的 联系 ， 从 而 帮助 计算 机 理解 句 
子 的 语义 。 








第 七 和 ”结构 语义 学 


我 们 在 第 二 章 第 三 节 中 讨论 过 的 词汇 语义 学 主要 研究 高 度 系 统 化 的 
词汇 的 结构 ， 这 个 结构 所 表示 的 实际 上 有 是 词汇 化 的 概念 之 间 的 关系 ， 这 
种 关系 反映 了 单词 本 身 所 回 有 的 语义 特征 ,它们 一 般 是 静态 的 
(static) ， 是 独立 于 单词 在 句子 和 文本 中 的 上 下 文 语 境 而 存在 的 。 





自然 语言 语义 分 析 的 目的 是 求解 句子 中 的 “谓词 论 元 关系 ”， 找 出 句 
子 中 单词 之 间 的 语义 关系 ， 这 样 的 语义 关系 不 同 于 单词 本 身 回 有 的 语义 
特征 ， 它 们 一 般 是 动态 的 〈dynamic) ， 是 随 着 单词 在 句子 和 本 文中 的 
上 下 文 语 境 而 改变 的 。 对 于 这 种 语义 关系 的 研究 ， 是 结构 语义 学 
(structural semantics) 的 任务 。 








词汇 语义 学 中 研究 的 单词 回 有 的 语义 特征 是 目 然 语言 处 理 中 进行 语 
义 分 析 的 语义 知识 源 ， 在 语义 分 析 时 ， 我 们 可 以 根据 单词 固有 的 语义 特 
征 来 推算 句子 中 单词 与 单词 之 间 的 语义 关系 。 从 这 个 意义 上 我 们 可 以 
说 ， 词 汇 语义 学 是 结构 语义 学 的 基础 。 

















本 节 讨 论 结构 语义 学 的 两 个 主要 问题 : 题 元 角色 关系 和 选择 限制 。 


1. 题 元 角色 关系 








句子 中 单词 与 单词 之 间 的 语义 关系 ， 有 许多 不 同 的 表示 方法 : Bil 
如 ， 我 们 可 以 用 “ 格 ”(case) 来 表示 语义 关系 ， 采 用 AGENT (ith St 
者 ) , PATIENT (23%) , BENEFICIENT (受益 者 ) 等 深层 格 作为 





标记 ; 我 们 也 可 以 用 配 价 语 法 来 表示 语义 关系 ， 采 用 行动 元 CactanO 
和 状态 元 Ccirconstant) 等 作为 标记 ; 我 们 也 可 以 用 谓词 论 元 关系 来 表 
示 语 义 关 系 ， 采 用 Arg0, Argl, Arg2, Arg3 等 作为 标记 。 


这 些 表示 方法 虽然 各 有 不 同 ， 但 是 都 可 以 归结 为 “ 题 元 角色 关 


系 ”(thematic role relation) 。 


题 元 角色 的 标记 基本 上 来 自 菲 尔 摩 〈Ch. Fillmore) 1968 年 在 


(FHF) Dl (The case for case) 中 提出 的 格 语法 (case. grammar) 
的 “ 格 ”(case) 。 


菲 尔 摩 提出 的 格 有 施 事 格 CA-Agentive) 、 工 具 格 
(I-Instrumental) 、 客 体格 (O=Objective) 、 处 所 格 C(L-Locative) ~ 
承受 格 (CD-Dative) 以 及 使 成 格 (F=Factitive) 等 等 。 菲 尔 摩 本 人 从 来 
没有 说 过 他 提出 的 格 一 共有 多 少 个 ， 经 过 我 们 归纳 ， 在 1966 年 到 1977 年 
间 ， 菲 尔 摩 一 共 提 出 了 13 个 格 。 除 了 原来 的 施 事 格 、 工 具 格 、 客 体格 、 
处 所 格 、 承 受 格 之 外 ， 还 增加 了 感受 格 CE-Experiencer) 、 源 点 格 
(S=Source) 、 终 点 格 (G2GoaD 、 时 间 格 (T=Time) 、 行 径 格 
(P=Path) 、 受 益 格 (B=Benefactive) 、 伴 随 格 (C-Comitative) 、 永 
存 格 /转变 格 (essive /translative) 。 原 来 的 使 成 格 并 入 了 终点 格 。 


主要 的 “ 格 ” 解 释 如 下 : 


一 一 施 事 格 CAgentive) : 表示 由 动词 确定 的 动作 能 察觉 到 的 典型 
的 动作 发 生 者 ， 一 般 为 有 生命 的 人 或 物 。 例 如 ，He laughed (fh f) 
中 的 “he”。 








一 一 工具 格 (Instrumental) : 表示 对 于 动词 所 确定 的 动作 或 状态 而 
言 ， 作 为 某 种 因素 而 牵涉 到 的 、 无 生命 的 力量 或 客体 。 例 如 ，He cut the 
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rope with a knife〈 他 用 小 刃 割断 绳子 ) 中 的 “a knife". 





一 一 承受 格 (Dative) : 表示 由 动词 确定 的 动作 或 状态 所 影响 的 有 
生物 。 例 如 ，He is tall (他 个 子 高 中 的 “he”。“ 承 受 格 ”* 常 党 被 翻译 
为 "给予 格 ”，“ 给 予 格 ”的 字面 含义 容易 引起 误解 ， 最 好 叫做 “承受 格 ”。 





一 一 使 成 格 〈Factitive) : 表示 由 动词 确定 的 动作 或 状态 所 形成 的 
客体 或 有 生物 ， 或 者 是 理解 为 动词 意义 的 一 部 分 的 客体 或 有 生物 。 例 
Jl], John dreamed a dream about Mary (约翰 做 了 一 个 关于 玛丽 的 梦 ) 中 


的 “a dream". 





一 一 处 所 格 (Locative) : 表示 由 动词 确定 的 动作 或 状态 的 处 所 或 
空间 方向 。 例 如 ，Heis in the house 〈 他 在 屋子 里 ) 中 的 “the house”. 





一 一 客体 格 〈Objective) : 表示 由 动词 确定 的 事物 或 状态 所 影响 的 
事物 ， 它 是 由 名 词 所 表示 的 事物 ， 其 作用 要 由 动词 本 里 的 词义 来 确定 。 
例如 ，He bought a book( 他 买 了 一 本 书 ) 中 的 “a book”。 客 体格 后 来 改 
称 “ 受 事 格 ”(Patientive) 。 


一 一 受益 格 〈Benefactive) : 表示 由 动词 所 确定 的 动作 为 之 服务 的 
有 生命 的 对 象 。 例 如 ，He sang a song for Mary 〈 他 给 玛丽 唱 了 一 支 歌 ) 
中 的 “Mary”。 


一 一 源 点 格 (Source〉: 表示 由 动词 所 确定 的 动作 所 作用 到 的 事物 
的 来 源 或 发 生 位 置 变化 过 程 中 的 起 始 位 置 。 例 如 ，I bought a book from 
Mary“〈 我 从 玛丽 那里 买 了 一 本 书 ) 中 的 “Mary”。 


一 一 终点 格 (Goal) : 表示 由 动词 所 确定 的 动作 所 作用 到 的 事物 的 
终点 或 发 生 位 置 变 化 过 程 中 的 终端 位 置 。 例 如 ，I sold a carto Mary (我 


卖 一 辆 车 给 玛丽 ) 中 的 “Mary”。 


一 一 伴随 格 CComitative) : 表示 由 动词 确定 的 、 与 施 事 共同 完成 
动作 的 伴随 者 。 例 如 ，He sang a song with Mary (他 跟 玛 丽 一 起 唱 了 一 
只 歌 ) 中 的 “Mary”。 


“ 格 ? 是 格 语法 解释 语义 和 句法 关系 的 基本 工具 ， 可 是 明确 地 列 
出 “ 格 * 的 清单 却 十 分 困难 。 菲 尔 摩 本 人 从 来 就 没有 列 出 一 个 完整 而 明确 
的 格 清单 ， 在 不 同 的 文章 中 ， 格 的 数目 各 不 相同 ， 连 名 称 也 经 党 改变 。 
我 们 上 面 举 出 的 是 菲 尔 摩 经 党 使 用 的 13 个 格 。 


格 语法 在 目 然 语言 处 理 中 广 为 使 用 ， 在 机 器 翻译 、 人 工 智能 等 领域 
发 挥 了 作用 ， 是 语言 信息 处 理 重要 的 基础 理论 。 





20 世 纪 70 年 代 中 期 以 后 ， 格 语法 的 发 展 进 入 了 第 二 阶段 。 第 二 阶段 
的 格 语法 主要 作 了 如 下 修改 : 菲 尔 摩 把 第 一 阶段 表示 格 角色 的 结构 叫做 
底层 结构 ， 底 层 结构 由 格 角色 构成 ， 在 第 一 阶段 的 格 语法 中 ， 底 层 结构 
经 过 转换 就 得 到 表层 结构 ;而 在 第 二 阶段 ， 由 格 角 色 构 成 的 底层 结构 ， 
在 转换 之 前 还 必须 在 场景 Cscene) 的 制导 下 ， 通 过 “透视 
域 ”(perspective〉 的 选择 ， 进 行 深 层 主 语 和 深层 宾语 等 语法 关系 的 分 
配 ， 从 而 得 到 深层 结构 ， 深 层 结构 进入 转换 部 分 ， 经 过 转换 得 到 表层 结 
构 。 这 样 一 来 ， 个 句子 就 有 格 角色 和 语法 关系 两 个 分 析 平 面 ， 这 两 
个 平面 把 句子 和 句子 所 描述 的 事件 联系 起 来 ， 解 释 句 子 的 语义 和 人 句法 现 
象 。 

















菲 尔 雄 提 出 ， 人 句子 插 述 的 是 “场景 *”(scene) ， 场 景 中 各 参与 者 承担 
格 角 色 ， 构 成 句子 的 底层 结构 。 底 层 结 构 经 过 “透视 域 ”(perspective) 
的 选择 ， 一 部 分 参与 者 进入 透视 域 ， 成 为 句子 的 核心 成 分 (nucleus) ， 


每 一 个 核心 成 分 根据 突出 的 等 级 体系 Csaliency hierarchy) 确定 其 语法 
关系 ， 其 他 的 参与 者 不 一 定 能 进入 句子 ， 即 使 它们 出 现在 句子 中 ， 也 只 
能 成 为 外 围 成 分 Cperiphery) 。 


场景 是 语言 之 外 的 真实 世界 ， 如 物体 、 事 件 、 状 态 、 行 为 、 变 化 ， 
以 及 人 们 对 于 真实 世界 的 记忆 、 感 觉 、 知 觉 等 。 语 言 中 的 每 一 个 词 、 短 
语 、 句 子 都 是 对 场景 的 描述 。 当 人 们 次 出 一 个 词 、 一 个 短语 、 一 个 名 
子 、 或 者 一 段 话语 ， 都 是 确定 一 个 场景 ， 并 且 突 出 或 强调 那个 场景 中 的 
茶 一 部 分 。 例 如 ， 动 词 “ 写 ”描写 的 是 这 样 一 种 场景 : 一 个 人 在 某 个 物体 
的 表面 握 着 一 个 顶部 尖锐 的 工具 使 其 进行 运动 ， 在 物体 表面 留 下 痕迹 。 
在 这 个 场景 中 有 4 个 实体 〈 即 4 个 参与 者 ) : 发 出 这 个 行为 的 人 、 实 施 这 
个 行为 所 凭借 的 工具 、 承 受 这 个 行为 的 物体 表面 、 这 个 行为 在 物体 表面 
留 下 的 痕迹 。 这 是 在 没有 上 下 文 的 时 候 ， 单 独 一 个 动词 “ 写 ? 所 描述 的 全 
部 场景 ， 也 就 是 当 我 们 没有 遇 到 任何 其 他 的 上 下 文 条 件 时 ， 一 个 单独 的 
动词 “号 ”所 产生 的 全 部 想象 ， 这 也 束 是 “ 写 ” 这 个 词 给 我 们 引发 出 的 全 部 
想象 。 句 子 的 功能 在 于 突出 和 被 描述 的 主体 。 假 如 我 对 你 说 , “小 王 正在 
写 ?， 那 么 ， 这 个 句子 所 引发 出 的 场景 就 不 同 了 。 根 据 这 个 句子 ， 你 可 
以 知道 这 是 真实 世界 中 一 个 事件 的 场景 ， 当 听 到 这 个 句子 时 ， 你 会 在 脑 
海中 建立 起 这 样 一 个 场景 : 小 王 正 握 独 一 文笔 ， 笔 在 东 一 物体 表面 移 
动 ， 并 且 在 物体 表面 留 下 浪迹 。 这 个 场景 仍然 有 4 个 实体 : 书写 人 小 
王 ) 、 书 写 工具 《〈 笔 ) 、 书 写 物体 的 表面 〈 纸 ) 、 在 表面 留 下 的 痕迹 
〈 字 ) ， 但 是 ， 在 这 个 场景 中 突出 了 书写 人 小 王 这 一 个 实体 。 如 果 我 
说 “小 王 正在 写 信 ”， 那 么 ， 这 个 句子 引出 的 场景 仍然 只 有 4 个 实体 ， 但 
EREI BSA Cb) 和 在 表面 留 下 的 痕迹 〈 信 ) 2 个 实体 。 如 果 我 
说 “小 王 用 粉笔 在 黑板 上 写 ”， 这 个 句子 引发 出 的 仍然 是 4 个 场景 ， 但 是 
突出 了 书写 人 《小 王 ) 、 书 写 工 具 〈 粉 笔 ) 和 物体 表面 (黑板 〉3 个 实 
体 。 如 果 我 说 “小 王 用 粉笔 在 黑板 上 写 了 一 个 数学 公式 ”， 这 个 句子 引发 


























出 的 场景 仍然 是 4 个 ， 不 过 ， 与 前 面 3 个 句子 不 同 的 是 ， 这 4 个 实体 都 突 
出 了 : 书写 人 小 王 ) 、 在 表面 留 下 的 痕迹 《数学 公式 ) 、 书 写 工具 
粉笔) 、 物 体 表面 〈 黑 板 ) 。 

















语义 联系 着 场景 ， 但 是 场景 并 不 等 于 语义 ， 场 景 必须 通过 语言 使 用 
者 的 透视 才能 进入 语言 ， 才 能 与 语义 发 生 联系 。 我 们 说 出 每 一 个 句子 或 
者 每 一 段 话 语 ， 都 有 一 个 特定 的 透视 域 。 在 一 段 话语 的 任何 一 个 地 方 ， 
我 们 都 是 从 一 个 特殊 的 透视 域 去 考虑 一 个 场景 ， 当 整个 场景 都 在 考虑 之 
中 的 时 候 ， 我 们 一 般 只 是 注意 场景 的 茶 一 部 分 。 例 如 ， 商 务 事件 有 4 个 
BSA: 买主 、 夹 主 、 亚 项 和 货物 ， 天 项 有 时 还 可 以 再 进一步 分 析 为 现 
金 和 内 帐 两 种 情况 。 一 个 原型 商务 事件 应 该 包括 上 述 的 内 容 ， 但 是 ， 当 
我 们 谈论 这 个 事件 时 ， 所 使 用 的 单个 句子 要 求 我 们 对 于 事件 选择 一 个 特 
殊 的 透视 域 。 例 如 ， 想 把 卖主 和 货物 置 于 透视 域 ， 就 用 动词 “ 卖 ” AGE 
买主 和 区 项 置 于 透视 域 ， 束 用 动词 “购买 ”， 如 此 等 等 。 这 样 ， 任 何人 听 
见 并 理解 他 所 听 到 的 菜 一 句 话 时 ， 心 目 中 就 有 一 个 包括 商务 事件 的 全 部 
必要 方面 的 场景 ， 然 而 。 只 有 事件 的 茶 些 方面 被 确定 下 来 ， 并 且 被 置 于 
透视 域 中 。 





























进入 透视 域 的 成 分 成 为 句子 的 核心 成 分 。 每 一 个 核心 成 分 在 深层 结 
构 都 第 有 一 种 语法 关系 ， 担 任 句 子 的 主语 或 直接 宾语 。 没 有 进入 透视 域 
的 成 分 不 一 定 出 现在 句子 中 ， 即 使 出 现 的 话 ， 也 只 是 作为 句子 的 外 围 成 
分 。 外 围 成 分 通常 由 介词 、 状 语 或 者 小 句 引 入 。 


核心 成 分 的 突出 情况 是 不 同 的 ， 菲 尔 摩 提出 如 下 原则 来 确定 核心 成 
分 的 突出 等 级 : 





1. 主动 成 分 级 别 高 于 非 主动 成 分 ; 
2. 原因 成 分 级 别 高 于 非 原 因 成 分 ; 





3. 作为 人 的 《或 有 生命 的 ) 感受 者 的 级 别 高 于 其 他 成 分 ; 

4. BSC ELAR MAP EY Bal tes FAS ae SSA A UT 

5. 完全 的 或 个 性 化 的 成 分 的 级 别 蜗 于 一 个 成 分 的 条 一 部 分 或 无 个 性 化 
的 成 分 ; 

6. 实际 形体 的 级 别 高 于 背景 成 分 

7. 肯定 成 分 的 级 别 高 于 不 定 成 分 。 





这 里 的 等 级 是 按照 突出 程度 递减 的 顺序 来 排列 的 ， 因 此 ， 主 动 成 分 
的 级 别 高 于 其 他 任何 成 分 ， 原 因 成 分 的 级 别 高 于 除了 主动 成 分 之 外 的 任 
何 一 种 成 分 ， 作 为 人 的 感受 者 的 成 分 的 级 别 高 于 除了 主动 成 分 和 原因 成 
分 之 外 的 任何 一 种 成 分 ， 依 此 类 推 。 


因此 ， 在 确定 核心 成 分 的 语法 关系 时 ， 应 该 按照 突出 程度 的 顺序 来 
考虑 。 





当 确 定 核心 成 分 为 一 个 时 ， 场 景 中 最 高 的 成 分 就 是 主语 。 当 确定 核 
心 成 分 有 两 个 时 ， 应 该 按照 它们 在 等 级 中 的 相对 位 置 来 分 配 主语 和 直接 
宾语 ， 级 别 高 的 成 分 为 主语 ， 级 别 较 低 的 成 分 为 下 接 宾 语 。 当 一 个 动词 
的 主语 已 经 确定 ， 可 以 在 其 他 两 个 事物 中 选择 一 个 作为 直接 宾语 时 ， 在 
突出 等 级 中 级 别 高 的 事物 占有 优先 地 位 。 如 果 两 个 成 分 的 突出 程度 相 
同 ， 那 么 ， 它 们 中 的 任何 一 个 都 可 以 进入 透视 域 。 不 过 ， 这 种 突出 等 级 
的 划分 还 处 于 假设 阶段 。 正 如 菲 尔 摩 所 说 的 :“ 在 现 阶 段 ， 这 一 切 还 纯 
属 推 测 。” 这 些 问题 还 有 待 我 们 进一步 探索 。 








格 语法 中 的 深层 格 具有 普 过 性 ， 适 用 于 摘 写 各 种 自然 语言 的 语句 。 
一 旦 用 格 语法 对 句子 结构 进行 了 格 的 描写 ， 束 能 对 句子 的 表层 关系 和 性 
质 做 出 各 种 推断 ， 例 如 ， 推 断 主 语 是 什么 ， 能 舍 形 成 一 个 主 谓 结构 ， 如 
何 安排 句子 中 的 词 序 等 等 。 





菲 尔 摩 在 1977 年 指出 ， 能 够 描述 同一 商业 事件 的 不 同 的 动词 可 以 选 
择 不 同 的 方式 来 表达 事件 的 参与 者 。 例 如 ， 在 John 和 Tom 之 间 涉 及 3 美 
元 和 1 个 三 明治 的 交易 可 以 用 下 面 的 任何 一 种 方式 来 描述 : 





a. John bought the sandwich from Tom for three dollars. 
(John 花 三 美元 从 Tom 处 买 了 那 块 三 明治 。) 

b. Tom sold John the sandwich for three dollars. 

CTom 以 三 美元 卖 给 John 那 块 三 明治 。) 

c. John paid Tom three dollars for the Sandwich. 

(John 付 给 Tom 三 美元 来 买 那 块 三 明治 。) 





在 这 些 句 子 里 ， 动 词 buy、sell 和 pay 从 不 同 的 视角 来 表达 商业 事 
件 ， 并 选择 潜在 参与 者 与 题 元 角色 的 不 同 的 映射 来 实现 这 种 视角 。 我 们 
可 以 看 出 ， 这 三 个 动词 具有 完全 不 同 的 映射 。 这 个 事实 告诉 我 们 : 
的 语义 角色 必须 在 动词 的 词典 条 目 中 列 出 ， 从 潜在 的 概念 结构 是 不 能 也 
测 的 。 








根据 这 些 事实 ， 许 多 研究 者 认为 ， 在 上 自然 语言 处 理 系 统 的 词典 中 ， 
再 要 分 别 列 出 每 个 动词 的 句法 和 语义 组 合 的 可 能 性 ， 不 能 完全 依靠 句法 
功能 和 语义 关系 之 间 的 对 应 ， 简 单 地 进行 逻辑 推理 来 解决 语义 分 析 问 
题 ， 而 动词 的 句法 和 语义 组 合 的 可 能 性 应 该 通过 “框架 ?来 描述 








句子 中 单词 与 单词 之 间 的 语义 关系 ， 有 许多 不 同 的 表示 方法 ， 这 些 
表示 方法 虽然 各 有 不 同 ， 但 是 都 可 以 归结 为 “ 题 元 角色 关系 ”(thematic 


role relation) 。 


题 元 角色 的 标记 基本 上 来 自我 们 前 面 介绍 过 的 菲 尔 摩 格 语法 中 的 格 
标记 ， 主 要 的 题 元 角色 如 下 : 


e AGENT (Ox : 有 意志 的 事件 引起 者 。 例 如 ， "The waiter 
spilled the soup” 中 的 waiter。 





e EXPERIENCER (经 验 者 ) : 事件 的 经 验 者 。 例 如 ,，“John has a 
headache” 中 的 John . 


e FORCE (ji) : 无 意志 的 事件 引起 者 。 例 如 ,，“The quake 
broke the glass” 中 的 quake。 





e THEME (主题 : 事件 最 直接 影响 到 的 参与 者 。 例 如 ， “He 
broke the ice ”中 的 ice。 


e RESULT (R) : 事件 造成 的 结局 。 例 如 , “The ^ Korean 
government has built the World-Cup Stadium ”中 的 World-Cup Stadium. 


e CONTENT (WR) : 在 涉及 命题 的 事件 中 命题 的 内 容 。 例 如 ， 


John asked: “What is your name 2” 中 的 “What is your name? ”。 


e INSTRUMENT (工具 ) : 事件 中 所 使 用 的 工具 。 例 如 ，“John 


writes with a pencil ”中 的 with a pencil. 


e BENEFICIARY (受益 者 ) : 事件 的 受益 者 。 例 如 ，“John 


reserved a room for his boss ”中 的 for his boss. 


e SOURCE 〈 来 源 ) : 在 涉及 转移 的 事件 中 对 象 毛 从 出 的 来 源 。 例 
un, “John flew in from Beijing ”中 的 from Beijing. 


e GOAL CHO : 在 涉及 转移 的 事件 中 对 象 所 转移 的 方向 。 例 
lll, “John drove to Seoul ”中 的 to Seoul. 


题 元 角色 就 是 这 样 的 一 些 范畴 符号 ， 它 们 可 以 作为 描述 动词 论 元 的 
一 种 浅 层 的 语义 标记 。 


例如 ， 下 面 的 句子 : 


John broke a bat (John 折断 了 人 垒球 棒 ) 
John opened a door (John 打 开 了 门 ) 


它们 的 FOPC 表 达 式 如 下 : 


de, x, y ISA (e, Breaking) ^A Breaker (e, John) A 
BrokenThing (e, y) ^ ISA (y, BaseballBat) 

de, x y ISA (e Opening) ^  Openner (e, John) A 
OpenedThing (e, y) ^ ISA (y, Door) 


XE, "Breaker" GRE) 和 “Opener”( 打 开 者 ) 都 是 有 意志 的 行 
为 者 ， 通 音 是 有 生命 的 ， 他 们 是 相关 事件 的 直接 起 因 负 贡 者 。 我 们 可 以 
使 用 题 元 角色 来 表达 这 样 的 意思 ， 例 如 ， 我 们 可 以 说 ， 上 述 两 个 动词 的 
主语 都 是 AGENT 〈 施 事 者 ) ，AGENT 是 有 意志 的 事件 引起 者 ， 这 两 个 
动词 的 直接 宾语 分 别 是 “BrokenThing”( 折 断 物 ) 和 “OpenedThing”( 打 
FH) ， 它 们 通常 是 没有 生命 的 客体 ， 是 动作 作用 的 对 象 ， 这 样 的 题 元 
角色 叫做 THEME (主题 〉。 








在 句子 “John broke his collarbone” 中 ，John 是 EXPERIENCER (经 验 
者 ) 。 


在 句子 “The quake broke glass in several downtown Skyscrapers” 中 , 
quake 是 FORCE 〈 施 力 者 ) 。 


在 句子 “It broke his jaw” 中 ，[I 是 某 个 AGENT 或 FORCE 的 


INSTRUMENT (LE). 


菲 尔 摩 指出 ， 在 英语 主动 句 中 的 主语 可 能 充当 的 题 元 角色 是 有 一 定 
的 优先 顺序 的 。 他 提出 了 如 下 的 关于 主语 的 题 元 角色 层级 : 


AGENT > INSTRUMENT > THEME 
这 个 题 元 角色 层级 的 含义 如 下 : 


e 如 果 动 词 的 题 元 角色 中 包含 AGENT，INSTRUMENT 和 THEME， 
那么 ， 主 语 就 充当 AGENT 的 角色 。 


e 如 果 动 词 的 题 元 角色 中 只 包含 INSTRUMENT 和 THEME， 那 么 ， 
主语 就 充当 INSTRUMENT 的 角色 。 


e 在 被 动 句 中 ， 主 语 充当 THEME 的 角色 。 





例如 ， 

例如 , John opened the door. 
AGENT THEME 
John opened the door with the key. 
AGENT THEME INSTRUMENT 
The key opened the door. 
INSTRUMENT THEME 
The door was opened by John. 
THEME AGENT 


题 元 角色 还 可 以 作为 概念 结构 或 常识 中 的 语义 角色 以 及 它们 在 具体 
语言 的 表层 语法 的 句法 功能 (比如 主语 和 宾语 ) 之 间 的 中 间 层 。 在 机 器 


翻译 中 ， 题 元 角色 可 以 作为 一 种 有 用 的 中 间 语 言 。 


学 者 们 在 概念 结构 和 句法 功能 间 的 映射 方面 做 了 大 量 广泛 的 研究 工 
作 ， 这 样 的 研究 叫做 “关联 理论 ”(linking theory) 。 


例如 ， 菲 尔 摩 曾经 研究 过 “与 格 交 蔡 ”(dative alternation) 问题 。 他 
指出 ， 某 些 动词 〈 比 如 give，send，read) 可 以 具有 一 个 AGENT， 一 个 
THEME 和 一 个 GOAL， 有 时 候 ，THEME 作 为 宾语 出 现 ，GOAL 在 介词 
短语 中 出 现 〈 如 例子 a) ; 有 时 候 ，GOAL 也 可 以 作为 宾语 出 现 ， 而 
THEME 作 为 第 二 宾语 出 现 〈 如 例 b) : 


a. Doris gave/sent/read the book to Cary. 


AGENT THEME GOAL 
b. Doris gave/sent/read Cary the book. 
AGENT GOAL THEME 


由 于 GOAL 表 示 “ 与 格 ”， 它 在 句子 GO 中 出 现在 介词 短语 中 ， 在 句子 
(b) 中 作为 宾语 出 现 。 由 于 GOAL 的 出 现 是 交替 的 ， 所 以 叫做 “与 格 交 
de» 


H/K% (Talmy, 1985) 指出 , “情感 ?动词 〈 如 frighten、Pplease 等 ) 
可 以 用 THEME 作 主语 ， 如 在 〈1) 中 所 示 ， 或 者 用 EXPERIEME 作 主 
语 ， 并 用 THEME 作 介词 宾语 ， 如 在 (2) 中 所 示 。 


(1)a. That frightens me 








THEME EXPERIENCER 
b. That interests me 
THEME EXPERIENCER 
c. That surprises me 
THEME EXPERIENCER 
(2)a. I am frightened of that. 
EXPERIENCER THEME 
Re J am interested in that. 
EXPERIENCER THEME 
i. | am surprised at that. 
EXPERIENCER THEME 


HJ (Levin, 1993) 总 结 了 80 个 这 种 交 蔡 ， 包 括 在 每 种 语义 类 型 
中 动词 的 详尽 的 列表 ， 以 及 语义 限制 、 特 例 和 其 他 的 特性 。 这 个 列表 已 
为 许多 自然 语言 处 理 的 计算 模型 使 用 。 





2. 选择 限制 


一 个 词 位 对 于 它 的 各 个 论 元 角色 所 施加 的 语义 约束 叫做 选择 限制 


(selectional restriction ) 。 








词 位 第 第 具有 许多 各 式 各 样 的 涵义 ， 这 些 涵义 对 它们 的 论 元 施加 的 





约束 是 不 同 的 。 因 此 ， 选 择 限制 针对 的 是 词 位 中 某 个 特定 的 涵义 ， 而 不 
古 整 个 词 位 。 我 们 来 研究 下 面 关 于 词 位 serve 的 例句 : 





(1) Well, there was the time they served green-lipped mussels from 


New Zealand. 
(2) Which airlines serve Denver? 
(3) Which ones serve breakfast? 


例 (1) 说 明 的 是 serve 的 “ 训 饪 ”的 涵义 ， 常 限制 它 的 THEME 角 色 为 
某 种 食品 。 例 (2) 说 明 的 是 serve 的 “提供 商业 服务 ”的 涵义 ， 它 的 
THEME 被 约束 为 某 种 可 以 确认 的 地 理 或 行政 实体 。 例 (3) 中 serve 的 涵 
义 与 例 C 非常 接近 ， 说 明 的 是 serve 的 飞机 上 供应 的 某 一 顿 特定 的 饮 
食 的 涵义 。 对 于 多 义 词 位 的 相同 语义 角色 的 这 些 不 同 的 选择 限制 可 以 加 
入 到 词典 的 同一 词 位 的 不 同 涵义 中 。 我 们 可 以 使 用 这 样 的 选择 限制 根据 
上 下 文 进 行 歧义 消解 。 





由 不 同 词 位 以 及 同一 词 位 的 不 同 涵义 所 施加 的 选择 限制 可 能 很 不 相 
同 ， 有 些 词 位 的 选择 限制 的 范围 很 广泛 ， 有 的 词 位 的 选择 限制 的 范围 很 
宕 小 。 我 们 来 研究 下 面 关 于 动词 imagine CHO ~ lift (HEF) 和 
diagonalize Ci SON AB RERE) 的 例句 : 











(4) I cannot imagine what this lady does all day. 
(5) In rehearsal I often ask the musicians to imagine a tennis game. 
(6) He lifted the fish from the water. 


(7) To diagonalize a matrix is to find its eigenvalues. CHX FFE 


阵 来 发 现 它 的 真 值 ) 


如 果 已 经 知道 例 (4) 和 例 C5) 中 imagine 的 意义 ， 我 们 就 会 毫 不 
吃惊 地 发 现 它 对 于 能 够 填充 它 的 THEME 角 色 的 概念 几乎 没有 语义 约 
束 ， 其 选择 限制 的 范围 是 很 广泛 的 ， 它 的 AGENT 角 色 被 限定 为 人 或 其 
他 有 生命 的 实体 ， 选 择 限制 也 比较 宽 。 在 例 Coo 中 lift 的 涵义 将 它 的 
THEME 角 色 限 制 为 可 提升 的 东西 ， 我 们 可 以 把 它 的 选择 限制 确定 为 “ 物 
体 ”。 在 例 (7) 中 ，Diagonalize 对 它 的 THEME 和 角色 的 选择 限制 就 非常 
具体 化 ， 它 必须 是 一 个 矩阵 (matrix) . 





在 语义 分 析 系 统 中 ， 我 们 如 何 来 表示 选择 限制 呢 ? 





我 们 可 以 采用 一 阶 谓 词 演算 CFOPCO 来 表示 选择 限制 。 
如 果 我 们 有 如 下 的 FOPC 表 达 式 : 
de, x, y Eating (e) ^ Agent (e,x) A Theme Ce, y) 


为 了 说 明 对 于 y 的 选择 限制 是 某 种 可 食 的 东西 Cedible thing), R 
们 需要 在 上 面 的 表达 式 中 增加 一 项 “ISA (y, EdibleThing) “, 742): 


de, x, y Eating (e) A Agent Ce, x) ^ Theme (e, y) ^ 
ISA Cy, EdibleThing) 


如 果 在 句子 中 有 “ate a hamburger” 这 样 的 短语 ， 我 们 还 要 在 所 得 到 
的 FOPC 表 达 式 中 再 增加 一 个 新 的 选择 限制 ISA (y, Hamburger) ”, 43 
FI): 


Je, x, y Eating (e) A Agent Ce, x) ^ Theme (e, y) ^ 
ISA (y, EdibleThing) ^ ISA (y, Hamburger) 


我 们 最 后 得 到 的 这 个 FOPC 表 达 式 是 合理 的 ， 因 为 在 范 
畴 “Hamburger” 中 y 所 属 的 成 员 与 在 范畴 “EdibleThing” 中 y 所 属 的 成 员 是 
相 容 的 ， 它 们 在 知识 库 中 都 应 该 是 彼此 相 容 的 事项 。 








但 是 ， 使 用 FOPC 来 表达 选择 限制 显得 有 些小 题 大 做 ， 这 样 一 个 简 
单 的 句子 ， 要 使 用 这 么 多 的 选择 限制 ， 实 在 是 用 牛刀 来 杀 小 鸡 。 





另外 一 个 比较 方便 的 方法 是 使 用 词 网 《WordNet) 中 的 
SYNSET (同义词 集 ) 来 表示 选择 限制 。 例 如 ， 在 包含 短语 “ate a 
humburger” 的 句子 中 ， 我 们 可 以 从 词 网 的 60 000 个 SYNSET 中 找到 
SYNSET {food，nutrient}， 这 个 SYNSET 的 定义 是 : “any substance that 


can be metabolized by an organism to give energy and build tissue” . 





我 们 可 以 使 用 这 个 SYNSET 作 为 动词 eat 的 角色 THEME 的 选择 限 
制 ， 有 具体 到 单词 hamburger， 我 们 可 以 在 这 个 单词 的 上 位 词 中 确认 它 是 
一 种 食品 。 


Hamburger 的 上 位 词 如 下 : 


Sense 1 


Hamburger, beefburger — 


(a fried cake of minced beef served on a bun) 


-sandwich 
>snack food 
-dish 
snutriment, nourishment, sustenance ... 
5food, nutrient 
+Substance, matter 
2object, physical object 


Sentity, something 


根据 上 下 位 关系 可 以 看 出 ，hamburger 是 一 种 可 食 的 东西 。 


这 个 方法 比较 灵活 ， 可 以 满足 不 同 程度 的 选择 限制 的 需要 。 例 
如 ，“imagine, lift，diagnolize” 等 动词 的 THEME 的 选择 限制 在 程度 上 各 有 
差别 。 我 们 可 以 把 imagine 的 THEME 的 选择 限制 定 为 SYNSET fentity, 
something}， 把 lift 的 THEME 的 限制 定 为 SYNSET (object, ^ physical 
object}， 把 diagonilize 的 THEME 的 选择 限制 定 为 SYNSET {matrix}. 3X 
些 不 同 的 选择 限制 可 以 容许 “imagine a hamburger" "lift a hamburger” 这 
样 的 合格 的 短语 ， 并 排除 “diagonalize hamburger” 这 样 的 不 合格 的 短语 。 








wr. , \ 
本 童 参考 文献 
1. 冯 志 伟 ， 数 理 语言 学 LMj」， 上 海 知 识 出 版 社 ，1985 年 。 


2. Sth. EzE, DORN AHA CRE [Jj ，《 浙 江 大 
学 学 报 》 〈 人 文 社会 科学 版 ) ， 第 36 卷 ，2006 年 ， 第 3 期 。 


3. 汉 志 伟 ， 信 息 时 代 多 语言 问题 和 对 策 [J」 ，《 语 文 信息 》， 
2006 年 ， 第 2 期 ， 总 第 122 期 。 


4. Wem, MiB [MJ」， 北 京 大 学 出 版 社 ，1992 年 。 


5. 刘 东 立 、 唐 泓 英 、 王 宝库 、 姚 天 顺 ， 汉 语 分 析 的 语义 网 络 表示 法 
[]] ，《 中 文 信息 学 报 》，1992 年 ， 第 4 期 。 


6. 石 安 石 ， 语 义 论 LEM] ， 商 务 印 书馆 ，1993 年 。 


7. Aa, BETS, ATL eR [M] ， 清 华 大 学 出 版 社 ， 
1993 年 。 


8.， 张 潮 生 ， 语 义 表达 的 一 些 性 质 [Jj ，《 中 文 信息 学 报 》，1991 
E, 第 一 期 。 


9. Allen, J. Towards a general theory of action and time [J] , Artificial 
Intelligence , 23 (2) , 1984. 


10. Allen, J. Natural Language Understanding [M] , Benjamin 
Cummings, Menlo Park, CA, 1995. 


11. Bobrow, D.G. and Winograd, T. An overview of KRL, a knowledge 
representation language [J] , Cognitive Science, 1 (1) , 1977. 


12. Brachman, R.J. and Schmolze, J.G. An overview of the KL-ONE 
knowledge representation system LJ] , Cognitive Science , 9 (2) , 1985. 


13. Davidson, D. The logical form of action sentences [A] , In The 


Logic of decision and Action [C] , University of Pittsburgh Press, 1967. 


14. Davis, E. Representations of Commonsense Knowledge [M] , 
Morgan Kaufmann, San Mateo, CA, 1990. 


15. Fauconnier, G.. Mental Spaces: Aspects of Meaning Construction in 
Natural Language [M ] , MIT Press, Cambridge, MA, 1985. 


16. Feng Zhiwei, The role of electronic translation tools in information 
age (Keynote speech) [A], in Proceedings of 5th conference-cum- 
software exhibition of master of arts in computer-aided translation program 

[C] , Hong Kong Chinese University, 2006-09-02, Hong Kong. 


17. Feng Zhiwei, KOD — Intermediate Representation for MT [A] , 
In Proceedings of International conference for KOD [C] , Regensburg, 
Germany, 2006-Oct-12 to Oct-14. 


18. Hintikka, J. Semantics for propositional attitudes [A] , In 
Philosophical Logic LC] , Dordrecht, Holland, 1969. 


19. Montague, R. The proper treatment of quantification in ordinary 
English [ A] , In Formal Philosophy: Selected Papers of Richard Montague 
[C] , Yale University Press, New Haven, 1973. 


20. Moore, R. Reasoning about knowledge and action [J] , IJCAI -77, 
1977. 


21. Parsons, T. Events in the Semantics of English [J] , MIT Press, 
Cambridge, MA, 1990. 


22. Quilian, M.R. Semantic memory [A] , In Semantic Information 
Processing LC] , MIT Press, Cambridge, MA, 1968. 


23. Reichenbach, H. Elements of Symbolic Logic [M] , Macmilan, 
New York, 1947. 


24. Schank, R. C. Conceptional dependency: A theory of natural 
language processing LJ] , Cognitive Psychology , 3, 1972. 


25. Simmons, R. and Slocum, J. Generating English discourse from 
semantic network [J] , Communications of the ACM , 15 (10) , 1972. 


26. Winograd, T. Understanding Natural Language [M] , Academic 
Press, New York, 1972. 


27. Woods, W.A. Semantics for a Question-Answering System [A], 
Ph.D. thesis, Harvard University, 1967. 





[1 汉 志 伟 ， 现 代 术 语 学 引 论 ， 语 文 出 版 社 ，1997 人 年 。 
[2] 贾 彦 德 ， 汉 语 语义 学 ， 北 京 大 学 出 版 社 ，1992 年 。 


[3] Ch. Fillmore, The case for case, in E. Bach & R. T. Harms (eds.) 


Universal in Linguistic Theory , pp. 1-88, New York, Rinehart & Winston, 
1968. 


我 们 在 第 三 章 中 介绍 词类 标注 的 时 候 ， 用 来 进行 词类 标注 的 两 种 重 
要 的 统计 模型 都 是 由 马尔 可 夫 链 Markov Chain) 发 展 而 成 的 : 一 个 是 
隐 马 尔 可 夫 模 型 (hidden Markov model， 简 称 HMM) ， 另 一 个 是 最 大 
RRA (maximum entropy， 人 简称 MaxEnt) ， 与 马尔 可 夫 有 关 的 MaxEnt 
HU LENA AK RIZR (maximum entropy Markov model， 简 称 
MEMM) 。 它 们 全 都 是 机 器 学 习 模 型 。 在 本 间 中 ， 我 们 将 进一步 更 加 
全 面 地 、 更 加 形式 化 地 来 介绍 马尔 可 夫 链 和 隐 马 尔 可 夫 模 型 。 














隐 马 尔 科 夫 模型 和 最 大 炉 马尔 可 夫 模 型 两 者 都 是 序列 分 类 器 


(sequence classifier) 。 








序列 分 类 器 或 序列 标号 器 (sequence labeler) 是 给 序列 中 的 某 个 单 
元 指派 类 或 标号 的 模型 。 





我 们 在 前 面 研究 过 的 有 限 状 态 转 录 机 是 一 种 非 概率 的 序列 分 类 器 ， 
例如 ， 这 种 序列 分 类 需 能 够 把 单词 的 序列 转换 为 语素 的 序列 。 


HMM 和 MEMM 使 用 概率 序列 分 类 器 把 这 样 的 概念 进一步 扩充 了 ; 
给 定 一 个 单元 (单词 ， 字 母 ， 语 素 ， 句 子 ， 以 及 其 他 单元 ) 的 序列 ， 
HMM 和 MEMM 就 能 够 计算 在 可 能 的 标号 上 的 概率 分 布 ， 并 且 选 择 出 最 
好 的 标号 序列 。 


我 们 在 第 三 章 中， 已 经 研究 过 一 个 重要 的 序列 分 类 问题 :词类 标 
注 。 在 词类 标注 时 ， 序 列 中 每 一 个 单词 都 被 指派 一 个 词类 的 标记 。 








在 目 然 语 言 处 理 中 ， 如 果 我 们 把 语言 看 成 是 由 不 同 表示 层面 上 的 序 
列 组 成 的 ， 那 么 ， 我 们 在 很 多 地 方 都 可 以 遇 到 这 样 的 序列 分 类 问题 。 除 
了 词类 标注 之 外 ， 我 们 还 使 用 序列 模型 来 进行 语音 识别 ， 句 子 切 分 和 字 
素 - 音 位 转换 ， 局 部 句法 剖析 或 语 块 分 机 ， 命 名 实体 识别 和 信息 抽取 。 








本 章 首 先 介 绍 马尔 可 夫 链 ， 然 后 详细 地 介绍 隐 马 尔 可 夫 模 型 
(HMM) 、 问 前 算法 和 更 加 形式 化 的 韦 特 比 算法 (Viterbi algorithm) 
以 及 问 前 - 问 后 算法 。 


第 一 全 ”马尔 可 夫 链 


早 在 1913 年 ， 俄 国 著 名 数学 家 马尔 可 夫 CA. A. Markov， 俄 文 为 
A.A.MAPKOB, 1856—1922) 就 注意 到 语言 符号 出 现 概 率 之 间 的 相互 影 
啊 ， 他 试图 以 语言 符号 的 出 现 概率 为 实例 ， 来 研究 随机 过 程 的 数学 理 


论 。 





马尔 可 夫 出 生 于 俄罗斯 的 梁 赞 ， 他 的 父 杀 是 一 位 中 级 官员 ， 后 来 举 
家 迁 往 蔡 役 得 堡 。1874 年 马尔 可 夫 入 圣 彼 得 代 大 学 ， 毕 业 后 留 校 任教 。 
1886 年 当选 为 圣彼得堡 科学 院 院士 。 杞 尔 可 夫 的 主要 研究 领域 在 概率 和 
统计 方面 。 他 的 研究 开创 了 随机 过 程 这 个 新 的 领域 ， 以 他 的 名 字 命 名 的 
马尔 可 夫 链 在 现代 工程 、 自 然 科学 和 社会 科学 等 各 个 领域 都 有 很 广泛 的 
应 用 。 








为 了 研究 随机 过 程 这 个 数学 问题 ， 他 在 汗 牛 充 栋 的 众多 文学 作品 中 
进行 选择 ， 选 中 了 俄罗斯 诗人 普希金 (A.ITIYIIKMH) 脸 炙 人 口 的 叙事 
长 诗 《 叶 夫 根 尼 : 奥 涅 金 》， 作 为 他 研究 数学 问题 的 素材 。 








REKE ORRE KHE) (Eugene Onegin) 连续 地 记载 了 19 
世纪 早期 的 故事 ， 讲 的 是 一 个 青年 花花 公子 奥 涅 金 (Onegin) 拒绝 了 姑 
娘 达 吉 亚 娜 (Tatiana) 的 爱情 ， 又 在 决斗 中 杀 死 了 他 的 好 友 连 斯 基 
(Lenski) ， 最 后 为 了 这 两 件 大 错 而 仍 悔 莫 及 。 


然而 ， 这 部 叙事 长 诗 之 所 以 受到 人 们 的 喜爱 ， 主 要 并 不 是 因为 它 的 
情节 ， 而 是 因为 它 的 风格 和 结构 。 除 了 很 多 有 趣 的 结构 上 的 创新 之 外 ， 
这 部 叙事 长 诗 是 以 一 种 叫做 奥 涅 金 诗 市 (Onegin stanza) 的 抑 扬 格 形式 











写 的 ， 这 是 一 种 不 同 凡响 的 韵律 技巧 由。 





例如 ， 奥 涅 金 和 连 斯 基 决 斗 前 的 描述 ， 中 文 译本 是 按照 奥 涅 金 诗 贡 
来 翻译 的 : 


a 仇人 ， 曾 几何 时， 血 的 海 望 

b 使 他 们 两 人 互相 背叛 ? 

a 曾几何时 ， 他 们 彼此 谈 思 想 ， 

b 谈 事 业 ， 共 上 度 困 上 暇 ， 共 进 晚 餐 ? 
c 他们 曾经 是 一 对 好 友 ， 

c MORH, MERRI, 
d £i 9 — 3X xe fa WIE REIS , 

d 他 们 彼此 在 不 声 不 响 中 

e 冷酷 地 为 对 方 准备 着 死 .….……. 

f 他 们 可 该 相 视 一 笑 ， 和 和 气 气 ， 
f 趁 两 人 手 上 还 未 染 上 血迹 ， 

e 大 家 各 自 东 西 ， APIS... 
8 奇怪 的 是 ， 上 流 人 彼此 反目 

g 只 因为 怕 受 虚假 的 羞辱 。 











这 些 因素 使 得 这 部 诗 体 长 篇 小 说 在 翻译 成 其 他 语言 的 时 候 ， 显 得 非 
常 复杂， 常常 引起 争议 。 很 多 译本 是 以 诗歌 的 形式 来 翻译 的 ， 而 纳 博 科 
X (Nabokov) 的 有 名 的 贡 译 本 却 把 俄 文 逐 字 逐 句 地 照 字 面 翻译 成 了 责 
语 的 散文 。 因 此 关于 此 书 的 翻译 以 及 按照 字面 翻译 还 是 按照 诗歌 翻译 之 
间 争 议 引 起 了 学 术 界 众多 的 评论 。 





然而 ， 在 1913 年 ， 马 尔 可 夫 对 于 普希金 的 文本 提出 了 一 个 不 是 那么 
容易 引起 争论 的 问题 : 是 否 可 以 使 用 文本 中 字符 频 度 的 计数 来 帮助 我 们 


计算 序列 中 下 一 个 字母 是 元 音 的 概率 是 多 少 呢 ? 


蕊 尔 可 夫 别 开 生 面 ， 他 没有 按照 常人 的 办 法 来 研究 ， 而 是 把 《 叶 夫 
根 尼 : 奥 涅 金 》 中 的 连续 字母 加 以 分 类 ， 把 元 音 记 为 VY， 把 辅音 记 为 C， 
然后 ， 以 连续 字母 为 统计 单元 进行 计算 ， 研 究 元 音 和 辅音 字母 出 现 概 率 
之 间 的 相互 影响 。 由 于 当时 还 没有 计算 机 ， 也 没有 大 规模 的 语料库 ， 所 
以 ， 马 尔 可 夫 只 得 使 用 手工 查 频 的 方法 ， 统 计 了 由 元 音 和 辅音 字母 组 成 
的 三 字母 序列 在 《 叶 夫 根 尼 : 奥 涅 金 》 中 的 出 现 次 数 ， 得 到 了 如 下 的 元 
辅音 序列 表 〈( 其 中 NN 表示 字母 序列 的 记 数 ， 即 Count Number) : 

















表 9.1 《 叶 夫 根 尼 : 奥 涅 金 》 中 的 元 辅音 序列 表 























NC VYY ) 2 115 
- N( VV) 2 1104 
N( VVC ) 2989 
-N V ) =8638 
N( VCV ) 24212 
| - N( VC ) 27534 
N VEG j= 3322 
— N = 20000 
NC CVV ) 2989 
| - NC CV ) 2 7534 
N( CVC ) 26545 
-NCC ) =11362 
N( CCV ) 2 3322 
| - N( CC ) 23827 
N( CCC ) 2 505 





从 这 个 表 中 可 以 看 出 ， 在 统计 文本 的 总 字母 出 现 次 数 〈 包 括 元 音 和 
辅音 ) 为 20 000 次 ， 其 中 ， 元 音字 母 出 现 8 038 次 ， 辅 音字 母 出 现 11 362 
次 ; 当 元 音字 母 之 后 为 元 音字 母 时 ， 字 母 序列 VV 出 现 1 104 次 ; 当 元 音 
字母 之 后 出 现 辅音 时 ， 字 母 序列 VC 出 现 7 534 次 ; 当 字 母 序列 VV 之 后 为 
元 音字 母 时 ， 字 母 序列 VVV 出 现 115 次 ;， 当 字母 序列 VV 之 后 为 辅音 字母 











时 ， 字 母 序列 VVC 出 现 989 次 ; ..…….. 等 等 。 


根据 上 表 中 的 数据 ， 可 以 计算 出 有 关 元 音字 母 和 辅音 字母 出 现 的 概 





例如 ， 元 音字 母 的 出 现 概率 为 : 


MV) 8638 


mV) = = 
N 20000 
JU E SE RH EE REZ J E E EEA 
N CV ) 7534 
EK YI 6) = M = 0. 663 
NC) 11362 
元 首 字 母 在 元 音字 母 之 后 的 出 现 概率 为 
NC VV) 1104 
PIVI V) = —— = — = 0.128 
NV) 8638 
显而易见 ， 在 俄语 中 ， 元 音字 母 在 辅 首 字 母 之 后 出 现 的 概率 大 于 元 
音字 母 在 元 音字 母 之 后 出 现 的 概率 。 马 尔 可 夫 的 这 个 表 ， 确 切 地 说 明了 
元 音字 母 和 辅音 字母 之 间 出 现 概率 的 相互 影响 钙 。 


- 0.432 






































上 面 的 现象 可 以 概括 成 随机 过 程 加 以 研究 。 


随机 过 程 有 两 层 含 义 : 





第 一 ， 它 是 一 个 时 间 的 函数 ， 随 着 时 间 的 改变 而 改变 ; 


第 二 ， 每 个 时 刻 上 的 函数 值 是 不 确定 的 ， 是 随机 的 ， 也 就 是 说 ， 


一 时 刻 上 的 函数 值 按照 一 定 的 概率 而 分 布 。 


在 我 们 写 文 章 或 讲话 的 时 候 ， 每 一 个 字母 〈 或 音素 ) 的 出 现 随 着 时 
闻 的 改变 而 改变 ， 是 时 间 的 函数 ， 而 在 每 一 时 刻 上 出 现 什么 字母 〈 或 音 
R) 则 有 一 定 的 概率 性 ， 是 随机 的 ， 因 此 ， 我 们 可 以 把 语言 的 使 用 看 成 
一 个 随机 过 程 。 





在 这 个 随机 过 程 中 ， 所 出 现 的 语言 符号 是 随机 试验 的 结局 ， 语 言 束 
是 一 系列 具有 不 同 随 机 试验 结局 的 链 。 





如 果 在 随机 试验 中 ， 各 个 语言 符号 的 出 现 彼此 独立 ， 不 相互 影响 ， 
那么 ， 这 种 链 就 是 独立 链 。 





如 果 在 独立 链 中 ， 每 个 语言 符 吕 的 出 现 概率 相等 ， 那 么 ， 这 种 链 就 
叫做 等 概率 独立 链 。 


如 果 在 独立 链 中 ， 各 个 语言 符号 的 出 现 概率 不 相等 ， 有 的 出 现 概 率 
高 ， 有 的 出 现 概 率 低 ， 则 这 种 链 叫 做 不 等 概率 独立 链 。 











在 独立 链 中 ， 前 面 的 语言 符号 对 后 面 的 语言 符号 没有 影响 ， 是 无 记 
忆 的 ， 因 而 这 种 独立 链 是 由 一 个 无 记忆 信 源 发 出 的 。 这 种 独立 链 是 一 种 
没有 后 效 的 随机 过 程 ， 在 已 知 的 当前 状态 的 情况 下 ， 过 程 的 未 来 状态 与 
它 过 去 的 状态 无 天， 这 和 古 一 种 原始 形式 的 马尔 可 夫 过 程 。 











马尔 可 夫 对 于 《 叶 夫 根 尼 : 奥 涅 金 》 中 的 元 音 和 辅音 系列 的 研究 突 
人 破 了 原始 形式 的 马尔 可 夫 过 程 ， 过 程 的 未 来 状态 与 它 过 去 的 状态 是 有 关 
系 的 。 这 样 ， 就 把 马尔 可 夫 过 程 的 研究 同 前 推进 了 一 步 。 








在 如 像 《 叶 夫 根 尼 : 奥 涅 金 》 中 的 元 音 和 辅音 系列 这 样 的 随机 试验 
中 ， 每 个 语言 符号 的 出 现 概率 不 相互 独立 ， 每 一 个 随机 试验 的 个 别 结局 


依赖 于 它 前 面 的 随机 试验 的 结局 ， 那 么 ， 这 种 链 就 叫做 “马尔 可 夫 
链 ”(Markov chain) 。 











在 马尔 可 夫 链 中 ， 前 面 的 语言 符号 对 后 面 的 语言 符号 是 有 影 啊 的 ， 
这 种 链 是 由 一 个 有 记忆 信 源 发 出 的 。 这 正 是 马尔 可 夫 研 究 《 叶 夫 根 尼 . 
奥 涅 金 》 的 字母 序列 所 面临 的 情况 。 正 如 瑟 尔 可 夫 所 指出 的 ， 语 言 束 是 
由 这 种 有 记忆 信 源 发 出 的 Markov 链 。 











如 果 我 们 只 考虑 前 面 一 个 语言 符号 对 后 面 一 个 语言 符号 出 现 概率 的 
影响 ， 这 样 得 出 的 语言 成 分 的 链 ， 叫 做 一 重 马尔 可 夫 链 ， 也 就 是 二 元 语 
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如 果 我 们 考虑 到 前 面 两 个 语言 符号 对 后 面 一 个 语言 符号 出 现 概 率 的 
影响 ， 这 样 得 出 的 语言 符号 的 链 ， 叫 做 二 重 马 尔 可 夫 链 ， 也 就 是 三 元 语 














如 果 我 们 考虑 到 前 面 三 个 语言 符号 对 后 面 一 个 语言 符号 出 现 概 率 的 
影响 ， 这 样 得 出 的 语言 符号 的 链 ， 叫 做 三 重 马尔 可 夫 链 ， 也 就 是 四 元 语 
lke 








类 似 地 ， 我 们 还 可 以 考虑 前 面 四 个 语言 符号 、 五 个 语言 符号 、.……. 
对 后 面 的 语言 符号 出 现 概 率 的 影响 ， 分 别 得 出 四 重 马 尔 可 夫 链 《五 元 语 
法 ) 、 五 重 马 尔 可 夫 链 (六 元 语法 ) 、.……. 等 等 ， 依 此 类 推 。 








随 痢 马尔 可 夫 链 重 数 的 增 大 ， 随 机 试验 所 得 出 的 语言 符号 链 越 来 越 
接近 有 意义 的 目 然 语言 文本 。 


乔 姆 斯 基 和 心理 学 家 米 勒 (G. Miller) 指出， 这 样 的 马尔 可 夫 链 的 
重 数 并 不 是 无 穷 地 增加 的 ， 它 的 极限 残 是 语法 上 和 语义 上 成 立 的 目 然 语 








言 句 子 的 集合 。 这 样 ， 我 们 就 有 理由 把 上 自然 语言 的 句子 看 成 是 重 数 很 大 
的 马尔 可 夫 链 了 。 马 尔 可 夫 链 在 数学 上 刻画 了 上 自然 语言 句子 的 生成 过 
程 ， 是 一 个 早期 的 自然 语言 的 形式 模型 ， 后 来 的 很 多 研究 (例如,，“N 元 
语法 ”的 研究 ) ， 都 是 建立 在 马尔 可 夫 链 的 基础 之 上 的 。 








IRAJ REE (Markov chain) 有 时 也 叫做 显 马尔 可 夫 模 型 
(Observed Markov model) 。 马 尔 可 夫 链 和 隐 马 尔 可 夫 模 型 二 者 都 是 有 
限 自 动机 的 扩充 ， 而 有 限 自 动机 是 可 以 用 状态 集 和 状态 之 间 转 移 集 来 定 
XH. 





加 权 有 限 状 态 自动 机 Cweighted finite-state automaton) 是 有 限 自 动 
机 加 以 简单 提升 而 成 的 。 加 权 有 限 自动 机 中 每 一 个 弧 都 与 一 个 概率 相 联 
系 ， 这 个 概率 说 明 通 过 该 弧 的 可 能 性 的 大 小 。 这 些 概 率 应 该 归 一 化 ， 使 
得 离开 一 个 结 点 的 所 有 弧 的 概率 的 总 合 为 1。 


马尔 可 夫 链 (Markov chain) 是 加 权 目 动机 的 一 种 特殊 情况 ， 其 中 
输入 序列 惟一 地 确定 了 目 动 机 将 要 通过 的 状态 。 由 于 马尔 可 夫 链 不 能 
示 固 有 的 歧义 问题 ， 因 此 ， 只 是 在 把 概率 指派 给 没有 歧义 的 厅 列 时 ， 马 
尔 可 夫 链 才 是 有 用 的 。 


一 个 马尔 可 夫 链 使 用 状态 、 状 态 之 间 的 转移 以 及 初始 状态 和 终结 状 
态 来 描述 。 图 9.1a 是 一 个 马尔 可 夫 链 ， 它 给 天 气 事件 的 序列 指派 概率 ， 
其 中 的 词汇 由 HOT，COLD 和 WARM 组 成 。 图 9.1b 是 另 一 个 马尔 可 夫 
链 ， 它 给 单词 序列 wj ，.…, wn 指派 概率 。 事 实 上 ， 这 样 的 马尔 可 夫 链 是 
一 个 二 元 语法 模型 。 给 出 了 图 9.1 中 的 两 个 模型 ， 我 们 就 可 以 对 于 任何 
的 由 词汇 中 的 单词 组 成 的 序列 指派 概率 。 
































图 9.1 表示 天 气 事件 Ca) 和 单词 序列 (bo 的 马尔 可 夫 链 。 本 章 的 图 取 自 朱 夫 斯 遍 〈D. 


Jurafsky) 等 的 Speech and Language Processing (Second Edition, 2010) 一 书 ， 谨 此 致谢 。 








下 面 我 们 简短 地 说 明 怎 样 来 做 这 件 事 。 


首先 ， 让 我 们 更 加 形式 化 地 描述 这 个 问题 ， 把 马尔 可 夫 链 看 成 一 种 
概率 图 模型 (graphical model) ， 这 种 概率 图 模型 是 表示 图 (graph) 中 
概率 假设 的 一 种 方法 。 


一 个 马尔 可 夫 链 可 以 使 用 如 下 的 部 分 来 描述 : 


OQ qs Uy 状态 ( states )N 的 集合 

A-agag... ai.. a, 转移 概率 矩阵 (tansition probability 
matrix )A ,每 一 个 a, 表示 从 状态 i 转 
移 到 状态 j 的 概率 ,对 于 Vi, Za =1, 

do» dr 特殊 的 初始 状态 ( start state ) 和 终结 
状态 ( end state ), 它们 与 观察 值 没有 
联系 。 


从 图 9.3 中 可 以 看 出 ， 我 们 把 状态 《〈 包 括 初始 状态 和 终结 状态 ) K 
示 为 图 中 的 结 点 ， 把 转移 表示 为 图 中 的 结 点 之 间 的 弧 。 


芷 一 个 一 阶 马 尔 可 夫 链 (first-order Markov chain) 中， 我 们 假设 一 
个 特定 状态 的 概率 只 与 它 的 前 面 一 个 状态 有 关 。 这 就 是 马尔 可 夫 假 设 
(Markov Assumption) ， 可 以 表示 为 : 





P (qilq; ...3;, 2 =P Cai Idina? 
由 于 每 一 个 ai 表示 概率 p (qi di > > 根据 归 一 化 的 要 求 ， 从 一 个 给 
定 状 态 出 发 的 所 有 弧 的 概率 的 值 ， 其 总 和 应 当 为 1， 也 就 是 说 : 


Ih 


@ =1 Vi 
2, % 


Pas 
有 时 还 使 用 一 种 不 同 的 马尔 可 夫 链 的 表示 方式 ， 其 中 没有 初始 状态 
和 终结 状态 ， 而 是 明确 地 把 初始 状态 和 接收 状态 上 的 分 布 表示 出 来 : 





TET Ts -Ty 在 状态 上 的 初始 概率 分 布 ( initial 
probability distribution )。T; 表 示 马 尔 
可 夫 和 链 在 状态 i 开始 的 概率 。 某 些 
状态 j 可 以 有 =0, 这 意味 着 它们 
不 可 能 是 初始 状态 。 同 样 也 有 ， 
$mT,-1 

QA =i q,, Qys 合法 的 接收 状态 (accepting states ) 的 
集合 ,QA c Q。 


所 以 ， 状 态 1 作为 第 一 个 状态 的 概率 可 以 表示 为 aoal ， 或 者 也 可 以 表 
示 为 x 。 由 于 每 一 个 nt 表示 概率 5 (q START) ， 所 有 的 r 的 概率 的 总 
和 必定 为 1: 


^ 7, = | 


L=] 


现在 我 们 使 用 图 9.2 中 的 概率 样本 来 计算 下 列 序列 的 概率 : 
































图 9.1 在 图 9.1 中 所 示 的 天 气 事件 的 马尔 可 夫 链 的 妨 外 一 种 表示 方法 








(1) hot hot hot hot 


(2) cold hot cold hot 





里 没有 使 用 转移 概率 aol 来 表示 特定 的 初始 状态 ， 而 使 用 矢量 n 来 表 
示 初 始 状 态 概 率 的 分 布 。 Cb) 中 的 图 是 一 个 概率 样本 。)#* 


(1) hot hot hot hot=0.5*0.5*0.5*0.5=0.062 5 


(2) cold hot cold hot=0.3*0.2*0.2*0.2=0.002 4 


这 两 个 概率 的 差别 告诉 我 们 用 图 9.2 来 编码 的 现实 世界 的 天 气 事实 
是 什么 ? 天 气 事实 的 概率 是 可 以 直接 观察 到 的 。 





"RW BASRA AE 


当 需 要 计算 我 们 能 够 在 世界 上 直接 观察 到 的 事件 序列 的 概率 的 时 
候 ， 马 尔 可 夫 链 是 很 有 用 的 。 然 而 ， 在 很 多 情况 下 ， 我 们 感 兴趣 的 事件 
可 能 并 不 能 直接 在 世界 上 观察 到 ， 而 是 隐藏 在 观察 之 后 的 。 

















例如 ， 在 词类 标注 中 ， 我 们 并 没有 观察 到 存在 于 现实 世界 上 的 词类 
标记 ; 我 们 观察 到 的 只 是 一 个 一 个 具体 的 单词 ， 而 我 们 的 目标 是 根据 观 
察 到 的 单词 的 序列 推断 出 正确 的 词类 标记 。 这 是 ， 词 类 标注 是 隐藏 的 
Chidden) ， 它 们 不 能 被 我 们 直接 观察 到 。 








在 语音 识别 中 也 遇 到 同样 的 情况 ， 我 们 观察 到 的 是 存在 于 现实 世界 
上 的 声学 事件 ， 我 们 要 推断 出 “隐藏 "在 声学 事件 后 面 的 单词 ， 它 们 是 声 
学 事件 的 基本 的 导 因 来 源 。 








隐 马 尔 可 夫 模 型 (Hidden Markov Model， 简 称 HMM) 使 得 我 们 有 
可 能 既 涉 及 到 被 观察 到 的 事件 (例如 ， 在 词类 标注 时 我 们 在 输入 中 看 到 
的 单词 》， 又 涉及 到 隐藏 的 事件 〈 例 如 ， 词 类 标记 ) ， 这 些 隐 藏 事件 在 
概率 模型 中 被 我 们 认为 是 引导 性 的 因素 。 


在 第 三 章 中 我 们 已 经 简要 地 介绍 过 隐 杞 尔 可 夫 模 型 ， 读 者 对 于 这 个 
模型 已 经 有 了 大 致 的 了 解 。 


这 里 ， 我 们 使 用 爱 依 斯 调 〈Jason Eisner) 2002 年 在 “An interactive 
spreadsheet for teaching the forward-backward algorithm" (Proceedings of 
the ACL Workshop on effective tools and methodologies for teaching NLP 
and CL, 10-18) 一 文中 提出 的 例子 ， 并 参照 朱 夫 斯 员 CD. Jurafsky) 等 





的 Speech and Language Processing 一 书 中 的 实例 ， 来 进一步 说 明 隐 马尔 
可 夫 模 型 。 爱 依 斯 讷 和 朱 夫 斯 凯 对 于 隐 马 尔 可 夫 模 型 的 讲述 都 非常 精 
彩 ， 是 我 们 最 重要 的 参考 。 





爱 依 斯 讷 在 他 的 文章 中 提出 了 如 下 的 问题 : 





在 一 千 多 年 之 后 ， 假 定 你 是 一 个 在 2799 年 研究 地 球 暖 化 历史 的 气象 
学 家 ， 而 你 找 不 到 在 2007 年 夏天 任何 关于 美国 巴尔 的 摩 州 、 马 里 兰州 的 
天 气 的 记录 资料 ， 但 是 你 在 偶然 中 发 现 了 爱 依 斯 讷 的 日 记 ， 其 中 列 出 了 
在 这 个 夏天 的 每 一 天 他 吃 冰 淇 淋 的 数量 。 这 样 ， 我 们 就 可 以 利用 这 些 关 
于 冰淇淋 数量 的 观察 来 估计 每 一 天 的 气温 。 为 了 简单 起 见 ， 我 们 假定 每 

-天 的 天 气 只 有 两 种 状态 :“ 冷 ”( 记 为 C》 和“ 热 ”( 记 为 H) 。 这 样 一 
来 ， 爱 依 斯 讷 提出 的 这 个 问题 可 以 描述 如 下 : 




















给 定 一 个 观察 序列 O0， 每 一 个 观察 是 一 个 整数 ， 它 对 应 于 在 某 
一 个 给 定 的 日 子 所 吃 的 冰淇淋 的 数量 ， 引 起 爱 依 斯 讷 吃 冰淇淋 的 天 
气 的 状态 序列 是 “隐藏 的 "， 这 个 隐藏 的 状态 序列 用 Q 表 示 ， 它 的 值 
为 H 或 C。 





爱 依 斯 讷 提出 的 这 个 问题 实际 上 残 是 一 个 隐 马 尔 可 夫 模 型 。 现 在 我 
们 给 隐 马 尔 可 夫 模 型 作 形式 化 的 定义 ， 重 点 说 明 筷 在 哪些 方面 与 马尔 可 
REA ZH. 


一 个 隐 马 尔 可 夫 模 型 HMM 可 以 使 用 如 下 的 几 个 部 分 来 插 述 : 


Q=qq... dy 状态 ( states )N 的 集合 

A cmd. es ce fuss TÉ 转移 概率 和 矩阵 ( transition. probability 
matrix )A ,每 一 个 ai 表示 从 状态 i de 
移 到 状态 j 的 概率 ,对 于 Vi,>ai =1。 


0:445... Op 观察 ( observations )T 的 序列 ,每 一 个 
观察 从 词汇 V=v, v,，...,v, 中 
BO. 

B -b( o,) 观察 似 然 度 ( observation likelihoods ) 


序列 ,也 叫做 发 射 概率 ( emission 
probabilities ), 每 一 个 观察 似 然 度 表 
示 从 状态 i 生成 观察 o, 的 概率 。 

Ti ti 与 观察 值 没 有 联系 的 特殊 的 初始 状 
AS ( start state ) 和 终结 状态 (end 
state ), 以 及 从 初始 状态 出 发 的 转移 
概率 au ag... as 和 进入 终结 状态 的 
转移 概率 aja... afo 


正如 我 们 在 介绍 马尔 可 夫 链 时 说 过 的 那样 ， 有 时 我 们 还 使 用 一 种 不 
同 的 隐 号 尔 可 夫 模 型 的 表示 方式 (使 用 n 的 记 法 ) ， 其 中 没有 初始 状态 
和 终结 状态 ， 而 是 明确 地 把 初始 状态 和 接收 状态 上 的 分 布 表示 出 来 。 








T= 7,5755 +--+ > Ty 在 状态 上 的 初始 概率 分 布 (initial 
probability distribution ), m; Æ ZR 47K 
可 夫 链 在 状态 i 开始 的 概率 。 某 些 
状态 j 可 以 有 m =0, 这 意味 着 它们 
不 可 能 是 初始 状态 。 同 样 也 有 ， 
23m mls 

QA =| dos Gye ams 合法 的 接收 状态 (accepting states ) 的 
集合 ,QA c Q。 


在 这 里 ， 我 们 不 使 用 这 样 的 r 记 法 。 





一 阶 隐 马尔 可 夫 模 型 有 两 个 假设 : 一 个 是 马尔 可 夫 假 设 〈Markov 
Assumption) ， 一 个 是 输出 独立 性 假设 COutput Independence) 。 


第 一 个 假设 一 一 马尔 可 夫 假 设 : 第 一 个 假设 与 一 阶 马 尔 可 夫 链 中 的 
假设 一 样 : 尽管 在 马尔 可 夫 链 中 ， 一 个 特定 状态 qi 的 概率 与 它 前 面 的 各 
个 状态 qi qu 都 有 关 ， 但 是 ， 我 们 假定 ， 这 个 特定 的 状态 只 与 二 接 在 
它 前 面 一 个 状态 qi.1 有 关 。 用 公式 表示 为 : 








P (qi ld; ..q;; ) =P Cq lq ) 


第 二 个 假设 一 一 输出 独立 性 假设 : 一 个 输出 观察 o; 的 概率 只 与 产生 
该 观察 的 状态 qi 有 关 ， 而 与 其 他 的 任何 状态 gi … qi Gp 和 其 他 的 任何 
观察 01 ..…. Oj … Op 无 天 。 用 公式 表示 为 : 


P Co; |q, ... gi... Gr, 01...0;...07 ) =P Co, lq; ) 
图 9.3 是 用 于 描述 吃 冰 淇 淋 的 HMM 的 一 个 样本 。H 和 C 两 个 状态 分 别 


表示 热天 气 和 冷 天 气 ， 观 察 的 值 ( 吃 冰淇淋 的 数量 ) 取 自 字母 表 O={1， 
2, 3}， 每 一 个 观察 值 表示 爱 依 斯 讷 在 给 定 的 日 子 吃 冰淇淋 的 数量 。 








l d 
P(1| HOT)] [.2 P(1| COLD)] [.5 
P(2| HOT) |=| 4 P(2 | COLD)| =| .4 
PG| HOT)| |.4 PG|COLD)| |.1 
































图 9.3 ”关于 爱 依 斯 讷 在 给 定 的 日 子 吃 冰淇淋 的 数量 〈 观 察 值 ) 与 天 气 〈 隐 藏 变量 H 或 C) 之 间 


的 关系 的 隐 马 尔 可 夫 模 型 。 在 这 个 例子 中 ， 我 们 没有 使 用 最 后 状态 ， 但 是 允许 状态 1 和 状态 2 二 
者 都 可 以 作为 最 后 状态 。 





在 状态 为 hot 的 情况 下 ， 爱 依 斯 讷 吃 冰淇淋 的 概率 如 下 : 


PCI thot )) (0.2) 吃 1 个 冰淇淋 的 概率 

P(21hot)| 210.4 | 吃 2 个 冰淇淋 的 概率 

P(31hot)/ X0.4/ 吃 3 个 冰淇淋 的 概率 
在 状态 为 cold 的 情况 下 ， 爱 依 斯 讷 吃 冰 淇 淋 的 概率 如 下 : 


PC 11cold ) 0.5. Imz1^^PRGIEXKI LR 

P(21eold) | 2[0.4| 吃 2 个 冰淇淋 的 概率 

PC3lcold)/ \O.1) 吃 3 个 冰淇淋 的 概率 

在 图 9.3 的 HMM 中 ， 任 何 两 个 状态 之 间 的 转移 都 有 一 个 非 零 的 概 

率 。 这 样 的 HMM 叫 做 全 连通 HMM (fully connected HMM) 或 者 遍历 
HMM (ergodic HMM) 。 但 是 ， 有 时 我 们 会 遇 到 状态 之 间 的 转移 概率 
为 零 的 HMM。 例如， 从 左 到 右 的 HMM (left-to-right — HMM， 也 叫做 
Bakis HMM) ， 其 中 状态 的 转移 总 是 从 左 到 右 进行 的 ， 如 图 9.4 所 示 。 
在 Bakis HMM 中 ， 没 有 一 个 转移 是 从 编号 较 高 的 状态 向 编号 较 低 的 状态 
进行 的 ， 或 者 更 精确 地 说 ， 从 编号 较 高 的 状态 向 编号 较 低 的 状态 的 转移 
WBA. Bakis HMM 一 般 用 于 给 如 像 语 音 这 样 含有 时 间 进 程 的 现象 建 
模 。 





























图 9.4 两 个 含有 4 个 状态 的 隐 马 尔 可 夫 模 型 ， 左边 是 从 左 到 右 的 HMM (Bakis HMM) ， 右 边 是 
全 连通 HMM (遍历 HMM) 。 在 Bakis HMM 中 ， 所 有 没有 显示 出 来 的 转移 都 有 具有 零 概 率 。 
































我 们 已 经 知道 了 HMM 的 结构 ， 现 在 我 们 转 过 来 讨论 用 HMM 来 计算 
事物 的 算法 。 

1989 年 拉 宾 讷 (Rabiner) 的 “ 隐 马 尔 科 夫 模 型 及 其 在 语音 识别 中 的 
MA? B] CA) 是 一 个 很 有 影响 的 讲座 教程 ， 这 个 教程 以 20 世 纪 60 年 代 


弗格森 (Jack Ferguson) 的 教程 为 基础 ， 提 出 了 使 用 三 个 基本 问题 
(three fundamental problems) 来 描述 隐 马 尔 可 夫 模 型 的 思想 。 


这 三 个 基本 问题 是 : 


问题 1( 似 然 度 问题 ): 给 定 一 个 HMM A= CA, BO 和 一 个 观察 序列 
O， 确 定 观察 序列 的 似 然 度 P CODO 。 


问题 2〈 解 码 问 题 ) : 给 定 一 个 观察 序列 O0 和 一 个 HMMA= CA, 
B) ， 找 出 最 好 的 隐藏 状态 序列 Q。 


问题 3 〈 学 习 问 题 ): 给 定 一 个 观察 序列 O 和 HMM 中 的 状态 集合 ， 
自动 地 学 习 HMM 的 参数 A 和 B。 





词类 标注 是 问题 2 的 一 个 实例 。 下 面 ， 我 们 将 更 加 形式 化 地 描述 问 
题 1 和 问题 2， 问 题 3 是 机 器 自动 学 习 的 问题 ， 我 们 只 做 简略 的 讨论 。 





"h— Ho ASE 


我 们 的 第 一 个 问题 是 计算 特定 的 观察 序列 的 似 然 度 。 例 如 ， 给 定 图 
9.5 中 的 HMM， 计 算 序 列 “3 1 3 的 概率 是 多 少 ? 








图 9.5 ”对 于 给 定 的 隐藏 状态 序列 “hot hot cold”, URREA 1 3” 的 观察 似 然 度 的 计算 。 


更 加 形式 地 说 ， 第 一 个 问题 就 是 : 给 定 一 个 HMM A= (A, B) 和 一 
个 观察 序列 O， 计 算 观 察 序列 似 然 度 P CODO 。 


对 于 马尔 可 夫 链 ， 其 中 的 表面 的 观察 与 隐藏 的 事件 是 相同 的 ， 我 们 
只 要 顺 着 标记 为 “3 1 3” 的 状态 ， 把 相应 的 弧 上 的 概率 相 乘 ， 就 可 以 计算 
出 “3 1 3 的 概率 。 然 而 ， 对 于 隐 马 尔 可 夫 模型 ， 事 情 就 不 是 那么 简单 
了 。 我 们 试图 确定 冰淇淋 的 观察 序列 为 "3 1 3? 时 的 概率 ， 但 是 ， 由 于 状 
态 序列 是 隐藏 的 我 们 不 知道 隐藏 的 状态 序列 是 什么 ! 








让 我 们 首先 从 稍微 简单 一 些 的 情况 开始 。 假 定 我 们 已 经 知道 天 气 的 
冷 热 情况 并 且 知 道 爱 依 斯 讷 吃 了 多 少 冰 淇 淋 ， 我 们 来 计算 观察 序列 的 似 
然 度 。 例 如 ， 对 于 给 定 的 隐藏 状态 序列 “hot hot cold”， 我 们 来 计算 观察 
序列 “3 1 3 的 输出 似 然 度 。 














让 我 们 来 看 一 看 究竟 怎样 来 进行 计算 。 首 先 ， 我 们 知道 ， 在 隐 有 马尔 
可 夫 模 型 中 ， 每 一 个 隐藏 状态 只 产生 一 个 单独 的 观察 。 所 以 ， 隐 藏 状态 
序列 与 观察 序列 具有 相同 的 长 度 凶 。 





给 定 这 种 一 对 一 的 映射 以 及 马尔 可 夫 假 设 ， 对 于 一 个 特定 的 隐藏 状 


态 序列 Q=qo , di> d. -o Gp 以 及 一 个 观察 序列 O=ol , 07, .…, or ， 观 察 序 
列 的 似 然 度 为 : 


T 


RoOolg)sT1pAeste) 


EM 
从 一 个 可 能 的 隐藏 状态 序列 “hot hot cold" 到 所 吃 冰 淇 淋 的 观察 序 
列 “3 132” 的 同 前 概率 单位 计算 如 下 面 公 式 所 示 : 


P (313|hot hot cold ) =P (3|hot ) xP C1|hot ) xP (3j|cold ) 
图 9.5 是 这 个 计算 的 图 形 表 示 。 


不 过 ， 在 实际 上 我 们 当然 并 不 知道 隐藏 状态 序列 〈 天 气 ) 完 竟 是 什 
么 。 因 此 ， 在 计算 冰淇淋 事件 “3 1 3” 的 概率 时 ， 我 们 需要 通盘 考虑 所 有 
可 能 的 天 气 序列 ， 对 于 它们 进行 概 紊 加权， 这 样 一 来 ， 计 算 将 变 得 非常 


复杂 。 


让 我 们 来 计算 在 特定 的 天 气 序 列 Q 生 成 一 个 特定 的 冰淇淋 事件 序列 
O 的 联合 概率 。 一 般 说 来 ， 这 个 联合 概率 为 : 


AR 0)s»10,0Je >. AO! Oe) 


如 果 可 能 的 隐藏 状态 序列 只 有 一 个 ， 是 “hot hot cold", HA, Ar 
的 冰淇淋 观察 “3 1 3” 和 一 个 可 能 的 隐藏 状态 序列 “hot hot cold” 的 联合 概 
率 可 以 用 下 面 公式 来 计算 : 


P (313, hot hot cold ) =P (Chot |start ) xP Chot|hot ) xP Chot 


lcold ) xP (3|hot ) xP (1lhot ) xP (3j|cold ) 


图 9.6 是 这 个 计算 的 图 形 表示 。 





(hot) (hot) 3 Co) 
2 .1 


.4 


3 1 3 
图 9.6 ”冰淇淋 事件 “3 1 3 和 隐藏 状态 序列 “hot hot cold” 的 联合 概率 的 计算 。 








根据 公式 ， 计 算 如 下 : 


P (313, hot hot cold) =0.8*0.7*0.3*0.4*0.2*0.1=0.001 344 








在 实际 的 天 气 变化 中 ， 隐 藏 的 天 气 状态 的 序列 是 很 多 的 。 如 果 我 们 
知道 了 如 何 计算 观察 与 其 中 一 个 特定 的 隐藏 状态 序列 的 联合 概率 ， 我 们 
就 可 以 把 该 观察 与 所 有 可 能 的 隐藏 状态 序列 的 联合 概率 加 起 来 ， 计 算出 
这 个 观察 与 所 有 可 能 的 隐藏 状态 序列 的 全 部 概率 ; 


K0)-*EK0,0)- SNOT 








在 上 面 的 这 个 例子 中 ， 我 们 需要 计算 冰淇淋 观察 三 事件 (如 ,，“3 1 
3") 和 八 个 可 能 的 隐藏 状态 序列 〈 如 , “cold cold cold", “cold cold 
hot", “hot hot cold", “cold hot cold", “hot cold cold". “hot hot 
hot”, “not cold hot", “cold hot hot” 等 等 ， 共 有 2，=8 种 可 能 的 状态 序 


列 ) 的 联合 概率 的 总 和 : 
P (3 1 3) =P (3 1 3, cold cold cold) 


+P (3 1 3, cold cold hot) 
+P (3 1 3, hot hot cold) 


+P (313, cold hot cola) 
+P (3 1 3, hot cold cold) 
+P (3 1 3, hot hot hot) 

+P (3 1 3, hot cold hot) 
+P (3 1 3, cold hot hot) 





Xt SAAN ESGSC AS FUT LS SP, SANT 个 可 能 的 
隐藏 序列 。 在 实际 的 问题 中 ，N 和 T 二 者 都 是 很 大 的 ， 如 果 按 照 这 样 的 
方法 来 计算 ，NTL 将 呈 指 数 增长 ， 它 将 是 一 个 很 大 的 数 。 因 此 ， 在 实际 
上 ， 我 们 不 可 能 通过 分 别 计算 每 一 个 隐藏 状态 序列 的 观察 似 然 度 然后 把 
扎 们 加 起 来 求 和 的 办 法 来 计算 全 部 的 观察 似 然 度 。 我 们 可 以 避 开 这 样 复 
杂 的 联合 概率 的 计算 ， 而 只 计算 观 友 序 列 与 局 部 的 状态 序列 之 间 的 观 玛 
AIRE, KPE RAR E E A KHE o 





在 隐 马 尔 可 夫 模 型 中 ， 我 们 使 用 一 种 叫做 同 前 算法 (forward 
algorithm) 的 有 效 的 算法 来 代 丛 这 种 呈 指 数 增长 的 极为 复杂 的 算法 ， 这 
样 ， 算 法 的 复杂 度 将 大 大 降低 ， 实 验证 明 ， 向 前 算法 的 复杂 度 为 O CON? 
I) 





问 前 算法 是 一 种 动态 规划 算法 〈dynamic programming 
algorithm) ， 当 得 到 观察 序列 的 概率 时 ， 它 使 用 一 个 表 来 存储 中 间 值 。 
问 前 算法 也 使 用 对 于 生成 观察 序列 的 所 有 可 能 的 隐藏 状态 的 路 径 上 的 概 
率 求 和 的 方法 来 计算 观察 概率 ， 不 过 它 把 每 一 个 路 径 隐 合 地 闭合 在 一 个 
单独 的 回 前 网 格 (forward trellis) 中 ， 从 而 提高 了 效率 。 在 向 前 网 格 
中 ， 横 向 表示 观察 序列 ， 纵 向 表示 状态 序列 。 








图 9.7 是 对 于 给 定 的 隐藏 状态 序列 “hot hot cold> 计 算 观 察 序 列 “3 1 
3” 的 似 然 度 的 向 前 网 格 的 一 个 例子 。 其 中 ， 横 向 表示 时 间 上 的 观察 序列 


01 , 05 , 05 , 纵 同 表示 空间 上 的 状态 序列 qo , qı , qo , Gr o 
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图 9.7 用 于 计算 冰淇淋 事件 “3 1 3 的 全 部 观察 似 然 度 的 向 前 网 格 。 











向 前 算法 网 格 中 的 每 一 个 单元 ok CD 表示 对 于 给 定 的 自动 机 和 A， 在 
看 了 前 面 的 t 个 观察 之 后 ， 在 状态 j 的 概率 。 每 一 个 单元 a。 CO 的 值 使 用 
对 于 把 我 们 引入 这 个 单元 的 每 一 条 路 径 上 的 概率 求 和 的 方法 来 计算 。 形 
式 地 说 ， 每 一 个 单元 表示 如 下 的 概率 : 








a, Q) =P (o,, 05 ...0,, dt =j| 入 ) 








ZE, q ”的 意思 是 ;:“ 当 状态 序列 中 的 第 t 个 状态 是 状态 j 时 的 概率 ”。 


我 们 使 用 对 于 扩充 导入 当前 单元 的 所 有 路 径 求 和 的 方法 来 计算 概率 。 在 
时 刻 t， 对 于 给 定 的 状态 qd ，o G) 的 值 的 计算 公式 为 : 


uL Is y a, 4C i Ja;bK o, ) 


ESA 
根据 这 个 公式 ， 我 们 可 以 使 用 扩充 前 面 路 径 的 方法 来 计算 在 时 刻 t 
时 的 回 前 概率 ， 计 算 时 ， 我 们 要 把 下 面 的 3 个 因素 相 乘 : 


aCi) 从 前 面 的 时 间 步 算 起 的 前 面 的 向 前 路 径 概 率 


( previous forward path probability ) 


aij 从 前 面 状 态 q; 到 当前 状态 q; 的 转移 概率 ( transition 
probability ) 
b(o, ) 在 给 定 的 当前 状态 j ,观察 符号 o 的 状态 观察 似 然 


度 ( state observation likelihood ) 

图 9.7 是 一 个 向 前 网 格 (forward trellis) ， 横 轴 表 示 不 同时 间 的 观 
察 ， 与 时 间 (time) 有 关 ， 分 别 为 oi , 05 ，os ; 纵 轴 表示 状态 ， 与 空间 
(space) AR; 分 别 为 qo qid». dp 隐藏 状态 用 圆圈 表示 ， 观察 用 
方 框 表示 。 非 实 的 白 圆 圈 表 示 非 法 的 转移 。 图 中 说 明了 在 两 个 时 间 步 对 
于 两 个 状态 的 % G) E. REANO, G) =P (01 ,02 .…0t qi = 
入 ) ，S2 在 每 一 个 单元 中 进行 计算 。 在 每 一 个 单元 中 概率 的 计算 结果 用 
右边 的 公式 来 表示 : Qa G) =P (ol ,ov ,.…, ol ,qt *jO 。 














在 时 间 步 1 和 状态 1 的 向 前 概率 为 : 


a, (1) =P (ClStart) *P (3|C) =0.2*0.1=0.02 


这 意味 着 ， 从 开始 到 cold 这 个 状态 ， 吃 3 根 冰淇淋 的 观察 似 然 度 是 
0.02. 





在 时 间 步 1 和 状态 2 的 向 前 概率 为 : 


a, (2) =P (H|StarD *P (3|H) =0.8*0.4=0.32 


这 意味 着 ， 从 开始 到 hot 这 个 状态 ， 吃 3 根 冰 淇 淋 的 观察 似 然 度 是 
0.32。 








在 时 间 步 2 和 状态 1 的 同 前 概率 为 ag。 D ， 它 是 生成 局 部 的 观察 序 
列 “3 1 的 状态 1 在 时 间 步 2 时 的 癌 前 概率 。 我 们 在 计算 这 个 概率 时 ， 要 把 
在 时 间 步 1 的 概率 o 加 以 扩充 ， 通 过 两 条 路 径 : 





一 条 路 径 是 Start~C-~C， 其 向 前 概率 P《〈CIStart) *P (3|C) 
*P (CIC) *P CIC) ， 也 就 是 


a, (1) *P (CIC) *P (llC) ; 





Fi — eee ee Start HC， 其 向 前 概率 为 P CH|StarD *P (3|H) 
*P (CJH) *P (1IC) ， 也 就 是 


a, (2) *P (CJH) *P (IC) 。 


JE V ^ IR] ZR AI, jo (1) 的 回 前 概率 为 : 


a 1 )=P( ClStart )* RC S16) EC CIC ye PC TIG) 
+ PC HlStart ) FC 3IH) « Ff CIH)« PC 11C ) 
=a,(1)*PCCIC)*PC1IC) + af 2)*PCCIH) *PCIIC). 
=0.2 «0.1 *0.6 *0.5 + 0.8 *0.4 «0.3 *0.5 


=0.02 «0.30 + 0.32 *0.15 
- 0.006 + 0.048 
=0. 054 


这 意味 着 ， 从 开始 到 cold 再 到 cold 以 及 从 开始 到 hot 再 到 cold 的 天 和 气 


状态 ， 吃 冰淇淋 数 为 “3 1 的 观察 似 然 度 是 0.054。 





在 时 间 步 2 和 状态 2 的 向 前 概率 为 ag。 D ， 它 是 生成 局 部 的 观察 序 
列 “3 1 的 状态 2 在 时 间 步 2 时 的 癌 前 概率 。 我 们 在 计算 这 个 概率 时 ， 要 把 
在 时 间 步 1 的 概率 o 加 以 扩充 ， 通 过 两 条 路 径 : 





一 条 路 径 是 Start~ CH， 其 回 前 概率 P《〈CIStart) *P (3|C) 
*P CHIC) *P (1IH) ， 也 就 是 


a, (1) *P CHIC) *P CI[ED ; 





3j eee ee Start > HH, XCIRBIRESEZJP (HlStart) * P GH) 
*P (HIH) *P CI[ED ， 也 就 是 


a, (2) *P (HJH) *P (JH) 。 


把 这 两 个 回 前 概 京 相 加 ， 得 到 a。(2) 的 回 前 概率 为 : 


a,( 2 )=P( ClStart ) P(3IC)* FC HIC) * PC IIH ) 
+ PlHilStart ) &PC3IH) * fL HIH)«PCIIH) 
-a( 1) K HIC)O&ECIIH) + a (2) & FÉ HIH) « C IIH)o 
20.2 *0.150.4 «0.2 + 0.8 *0.4*0.7 *0.2 


=0. 02 «0.08 + 0.32 x0. 14 
=0.001 6 + 0.0448 
=0. 046 4 


这 意味 着 ， 从 开始 到 cold 再 到 hot 以 及 从 开始 到 hot 再 到 hot 的 天 气 状 
态 ， 吃 冰淇淋 数 为 “3 1” 的 观察 似 然 度 是 0.046 4。 





用 同样 的 方法 ， 为 我 们 可 以 计算 出 在 时 间 步 3 和 状态 1 的 向 前 概率 os 





(1) 以 及 在 时 间 步 3 和 状态 2 的 向 前 概率 a。 (2) 。 


癌 前 概率 aa G) 把 在 时 间 步 2 的 概率 a。 (1) Ma, (20 加 以 扩 





一 条 路 径 把 时 间 步 2 的 概率 a。 CIO 扩充 到 时 间 步 3 和 状态 1， 其 向 前 


a (1) "P CCIC) "P C3|C) =0.054 0.6 0.1=0.003 24 


一 条 路 径 把 时 间 步 2 的 概率 a。 (20 扩充 到 时 间 步 3 和 状态 1， 其 向 前 


a, (2) "P CCIH) "P (3|C) =0.046 4 0.3 0.1=0.001 392 


故 同 前 概率 
oa(1)=oo(1)*PCIC)*P3IC)+oo(2)*PCIH)*RP3ICI) 
=0. 003 24 +0. 001 392 
=0. 004 632 





这 意味 着 ， 在 向 前 概率 ag。 (1) 的 基础 上 ， 继 续 扩 充 到 cold 以 在 向 
前 概率 a， (2) 的 基础 上 ， 继 续 扩充 到 cold 的 天 气 状 态 ， 吃 冰淇淋 数 
为 “3 1 3” 的 观察 似 然 度 是 0.004 623. 


向 前 概率 oa Q) 把 在 时 间 步 2 的 概率 oo (1) Ma, (2) 加 以 扩 
充 ， 通 过 另外 两 条 路 径 : 





一 条 路 径 把 时 间 步 2 的 概率 a。 CIO 扩充 到 时 间 步 3 和 状态 2， 其 向 前 


a, (1) *P CHIC) *P (IH). =0.054*0.4*0.4=0.008 64 


一 条 路 径 把 时 间 步 2 的 概率 az (20 扩充 到 时 间 步 3 和 状态 2， 其 向 前 


a, (2) *P (HJH) *P (3/H) =0.046 4*0.7*0.4=0.012 992 


故 回 前 概率 
a 20 sad 1) «FC Blc)wE 30a (2) ePBIE e EC 3UH)) 
— 0.000 864 +0. 012 992 
— 0.021 632 





这 意味 着 ， 在 向 前 概率 o (1) 的 基础 上 ， 继 续 扩 充 到 hot 以 在 向 前 
Wa, (2) 的 基础 上 上， 继续 扩充 到 hot 的 天 气 状态 ， 吃 冰淇淋 数 为 “3 1 
3” 的 观察 似 然 度 是 0.021 632. 


图 9.8 古 计算 向 前 网 格 的 一 个 新 的 单元 中 的 概率 值 归纳 步 缀 的 力 外 
一 种 可 视 化 的 表示 方法 。 
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图 9.8 在 向 前 网 格 中 计算 一 个 











单独 的 成 分 qt CO 向 前 概率 的 可 视 化 表示 方法 。 


计算 时 ， 把 前 面 所 有 的 值 qei 加 起 来 ， 用 转换 概率 aij 加权， 再 乘 以 
WED, Co ) 。 在 HMM 的 很 多 应 用 中 ， 转 移 概 率 有 不 少 是 为 零 
的 ， 所 以 ， 并 不 是 所 有 前 面 的 状态 都 能 够 给 当前 状态 的 向 前 概率 做 出 页 
献 。 图 9.8 中 ， 隐 藏 状态 用 圆圈 表示 ， 观 察 用 方 框 表示 。 有 阴影 的 绩 损 
都 与 GO 的 概率 计算 有 关 。 图 中 没有 显示 初始 状态 和 终结 状态 。 

















显而易见 ， 采 用 向 前 算法 来 计算 观察 似 然 上 度 可 以 表示 出 局 部 的 观察 
序列 似 然 度 。 在 实际 应 用 中 ， 这 种 局 部 的 观察 似 然 度 比 使 用 联合 概率 表 
示 的 全 局 的 观察 似 然 度 更 加 有 用 。 所 以 ， 疝 前 算法 是 一 种 简单 而 有 用 的 
TUE. 





现在 ， 我 们 给 出 向 前 算法 的 递归 定义 。 递 归 定 义 陈 述 如 下 : 
1. 初始 化 : 


a, Cj) =ao bl Co, ) 1sj<N 


2. 递归 “由 于 状态 0 和 状态 F 没 有 发 射 概率 ) : 


aj) 


3. 结束 : 


alj) 


N 
S a. 
i-l 


N 
S arn 
i-l 


;b( o, ); 


ur | 


abl o, ); 


gu 
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在 很 多 如 像 HMM 这 种 包含 隐藏 变量 的 模型 中 ， 确 定 隐 藏 在 茶 个 观 
穴 序 列 后 面 的 变量 序列 的 工作 ， 叫 做 解码 Cdecoding) 。 











例如 ， 在 前 一 市 那个 吃 冰淇淋 的 例子 中 ， 给 定 冰 淇 淋 的 一 个 观察 序 
列 “3 1 3” 和 一 个 HMM， 解 码 器 (decoder) 的 任务 就 是 发 现 隐 藏 在 观察 
序列 “3 1 3” 后 面 的 最 优 天 气 序列 (例如 , HHH) 。 








更 加 形式 化 地 说 ， 给 定 一 个 HMM A= (A, B) 和 一 个 观察 序列 O=oi 
， 02 ，.…, Op 作为 输入 ， 找 出 概率 最 大 的 状态 序列 Q=q1 q2 qs … qr ， 就 叫 
做 解码 (decoding) . 


我 们 或 许可 以 使 用 向 前 算法 来 找 出 隐藏 在 观察 序列 之 后 最 好 的 状态 
序列 。 对 于 每 一 个 可 能 的 隐藏 状态 序列 CHHH，HHC，HCH， 等 等 ) ， 
运行 问 前 算法 ， 计 算 观 察 序列 对 给 定 的 隐藏 状态 序列 似 然 度 ， 然后 我 们 
选 出 具有 最 大 观察 似 然 度 的 隐藏 状态 序列 ， 从 而 完成 解码 的 任务 。 不 
过 ， 从 前 一 节 我 们 清楚 地 知道 ， 如 果 状 态 序 列 的 数量 很 大 ， 这 是 很 难 做 
到 的 ， 这 是 因为 向 前 算法 的 计算 复杂 度 为 O (ON? TO ， 是 指数 级 的 。 














我 们 显然 不 能 这 样 做 。HMM 最 常见 的 解码 算法 是 美国 计算 机 专家 
韦 特 比 〈Viterbi) 提出 的 韦 特 比 算法 (Viterbi algorithm) - 





韦 特 比 算法 是 一 种 动态 规划 算法 (dynamic programming 
algorithm) ， 它 使 用 动态 规划 网 格 。 韦 特 比 算 法 与 最 小 编辑 距离 
(minimum edit distance) 算法 非常 相似 ， 这 是 动态 规划 算法 的 男 外 一 种 











ARMS. 





图 9.9 是 韦 特 比 网 格 的 一 个 例子 。 图 中 ， 隐 藏 状态 用 圆圈 表示 ， 观 
穴 用 方 框 表示 ， 非 实 的 白 圆 圈 表 示 非 法 的 转移 。 图 9.9 说 明了 对 于 观察 
序列 “3 1 3?， 如 何 计算 最 佳 的 隐藏 状态 序列 。 其 基本 思想 是 按照 观察 序 
列 从 大 到 右 的 顺序 来 填充 网 格 。 网 格 的 每 一 个 单元 Y G 表示 对 于 给 
定 的 上 自动 机 A，HMM 在 看 了 头 t 个 观察 并 通过 了 概率 最 大 的 状态 序列 qo ， 
diss q1 之 后 在 状态 j 的 概率 。 每 一 个 单元 w CD 的 值 是 递归 地 计算 
的 ， 计 算 时 选取 引导 我 们 到 达 这 个 单元 的 概率 最 大 的 路 径 。 形 式 地 说 ， 
每 一 个 单元 表示 如 下 的 概率 : 


> SN rx 
qd: tend) tend) tend) 
SZ NIA Kaf 
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Vi(2)=.32 v,(2)=max(.32*.014, .02*.08)=.044 8! ^ 
ü CH) P(HIH*P(III) AN — — — 5 -个 
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图 9.9 ”对 于 吃 冰淇淋 事件 “3 1 3”， 计 算 通过 隐藏 状态 空间 的 最 佳 路 径 的 韦 特 比 网 格 。 


v( j ) 三 max A 二 =j] à) 


注意 ， 我 们 选取 最 大 限度 地 禾 盖 前 面 所 有 可 能 的 状态 序列 
o gaat ”来 代表 概率 最 大 的 路 径 。 与 其 他 所 有 的 动态 规划 算法 一 


样 ， 韦 特 比 算法 递归 地 填充 每 一 个 单元 。 如 果 我 们 已 经 计算 了 每 一 个 状 





态 在 时 刻 f1 的 概率 ， 瓯 能够 选取 把 我 们 引导 到 当前 单元 的 概率 最 大 的 路 
径 ， 来 计算 韦 特 比 概率 。 在 时 刻 r1， 对 于 给 定 的 状态 qd ，w GO) 的 值 


按 如 下 公式 计算 : 
ey) = max v,. Ci Ja, bo, ) 


此 公式 用 于 计算 在 时 刻 t-1 的 时 候 使 用 扩充 前 面 路 径 的 方法 来 计算 韦 
特 比 概率 ， 计 算 时 ， 要 把 下 面 的 3 个 因素 相 乘 : 


vii(i) 从 前 面 的 时 间 步 算 起 的 前 面 的 韦 特 比 路 径 概 率 
( previous Viterbi path probability ) 

au 从 前 面 状态 qi 到 当前 状态 qi 的 转移 概率 ( transition 
probability ) 

bi o, ) 在 给 定 的 当前 状态 j ,观察 符号 o 的 状态 观察 似 然 度 


( state observation danda ) 


图 9.10 是 韦 特 比 算法 的 伪 代 码 。 





function FORWARD ( observations of len T, state-graph of len N ) returns 
forward-prob 
create a probability matrix forward | N +2, T | 
for each state s from 1 to N do ; initialization step 
forward | s, 1 Jap, * 6, 0, ) 
for each time step from 2 to T do ;recursion step 
for each state s from 1 to N do 


N 
forward | s, 1] — 5 forward| s',t-1] * a, , * b(o,) 
Se 


forward [ Vp? Tie 2 forward [s, T] * di ; termination step 


return forward [ 和， T] 





图 9.10 韦 特 比 算法 的 伪 代 码 


使 用 韦 特 比 算法 时 ， 对 于 给 定 的 观察 序列 和 HMM à= (A,B), HMM} 
最 大 的 似 然 度 指派 给 观察 序列 ， 算 法 返回 状态 路 径 ， 从 而 找 出 最 优 的 隐 
藏 状态 序列 。 


在 图 9.9 中 ， 我 们 首先 计算 在 时 间 步 1 的 韦 特 比 概率 : 
在 时 间 步 1 和 状态 1 的 概率 为 : 


V, (1) =P (ClStart) *P (3|C) =0.2*0.1=0.02 


在 时 间 步 1 和 状态 2 的 概率 为 : 


V, (2) =P (HjStart) *P (3/H) =0.8*0.4=0.32 


在 时 间 步 2 状态 1 的 概率 为 vv (1) 。 我 们 在 计算 这 个 概率 时 ， 要 考 
虑 来 自 时 间 步 1 的 两 条 路 径 : 一 条 路 径 是 Start -CC， 其 概率 
P (C\Start) *P (3/C) *P (CIC) *P (1C) :， 另 一 条 路 径 是 
Start HC， 其 概率 为 P (HIStart) *P (3IH) *P (CIH) *P (1IC) . 7B 
特 比 算法 要 对 于 这 两 个 路 径 的 概率 进行 比较 ， 取 其 最 大 者 : 





V,( 1) =max (R CIStart ) «RV 3IC) FK CIC) « CIC), PC HlStart ) * K 31H) * FK CIH) «C HC) 
-max (0.2 «0.10.6 «0.5, 0.8 «0.4 «0.3 #0.5) 
=max ( 0. 02 « 0.30, 0.32 «0. 15) 
- max ( 0. 006, 0.048 ) 
20.048 


可 见 ， 在 时 间 步 2 状态 1 的 概率 V， C1) 等 于 0.048， 在 这 种 情况 下 ， 
观察 序列 “31” 对 应 的 隐藏 状态 为 “HC”。 


在 时 间 步 2 和 状态 2 的 概率 为 vy， (2)〉 。 我 们 在 计算 这 个 概率 时 ， 要 


考虑 来 自 时 间 步 1 的 两 条 路 径 : 一 条 路 径 是 Start CH， 其 概率 

P (C\Start) *P (3IC) *P CHIC) *P GJH) ;， 另 一 条 路 径 是 

Start “HH， 其 概率 为 P (HIStart) *P (3IH) *P (HJH) *P GJH) 。 
韦 特 比 算法 要 对 于 这 两 个 路 径 的 概率 进行 比较 ， 取 其 最 大 者 : 





V,(2)=max ( PC ClStart ) P31C)#R HIC) « PC HB), PHIStart ) * BR 3IH)#*R HIH)*R 11H) ) 


- max ( 0.2*0.1*0.4*0.2, 0.8 #0.4*0.7*0.2) 
= max ( 0.02 *0.8, 0.32 «0.14 ) 

- max ( 0.0016, 0.0448 ) 

=(). 0448 


可 见 ， 在 时 间 步 2 和 状态 2 的 概率 v， (20 等 于 0.044 8， 在 这 种 情况 
下 ， 观 察 序列 “3 1” 对 应 的 隐藏 状态 为 “H H^. 

在 时 间 步 2， 我 们 再 对 V。 (1) 和 V。(2) 这 两 个 韦 特 比 概率 进行 比 
较 ， 取 其 最 大 者 为 V (1) =0.048， 由 此 可 知 ， 从 时 间 步 1 到 时 间 步 2， 
对 应 于 观察 序列 “3 1?， 隐 藏 的 状态 应 当 为 *H C”， 而 不 是 “H HP. 





使 用 韦 特 比 算 法 ， 我 们 继续 计算 时 间 步 3 的 韦 特 比 概率 ， 取 其 最 大 
者 对 应 的 路 径 为 观察 序列 “3 1 3” 后 面 隐藏 的 状态 序列 。 从 而 得 到 解码 的 
结果 。 

在 时 间 步 3 和 状态 1 的 概率 为 V。 (1)〉， 我 们 在 时 间 步 2 的 最 大 概率 
V, (1) 的 基础 上 来 计算 这 个 概率 ， 其 路 径 是 Start-H-C-,C， 其 概率 
是 V，。(1) *P (CIC) *P (3|C) : 


V4 (1) =V, (1) *P (C|C) *P (3|C) =0.048*0.6*0.1=0.002 
88 


在 时 间 步 3 和 状态 2 的 概率 为 VYV。 O2) ， 我 们 在 时 间 步 2 的 最 大 概率 
V, CD 的 基础 上 来 计算 这 个 概率 ， 其 路 径 是 Start ~“H_-C-~H， 其 概率 
EV, (1) *P CHIC) *P (3IH) : 


V, (2) =V, (1) *P CHIC) *P (SIH) =0.048*0.4*04=0.007 
68 


比较 在 时 间 步 3 的 韦 特 比 概率 V。 (1) AV, Q), BFV, (2) > 
Vy (OD ， 故 取 最 大 概率 V。 (2) =0.007 68， 其 对 应 的 隐藏 状态 为 





书 特 比 算法 与 癌 前 算法 的 区 别 是 : 


1. 书 特 比 算法 要 在 前 面 路 径 的 概率 中 选取 最 大 值 (max〉， 而 问 前 
算法 则 要 计算 其 总 和 《〈sum) ， 除 此 之 外 ， 书 特 比 算法 和 向 前 算法 是 一 
样 的 。 





2. 韦 特 比 算法 还 有 一 个 成 分 是 回 前 算法 没有 的 ， 这 个 成 分 就 是 反 回 
指针 Cbackpointer) 。 其 原因 在 于 加 前 算法 需要 产生 一 个 观察 序列 似 然 
度 ， 而 韦 特 比 算法 必须 产生 一 个 概率 和 可 能 性 最 大 的 状态 序列 ， 从 而 达 
到 解码 的 目的 。 当 我 们 计算 这 个 状态 序列 的 时 候 ， 要 回 过 去 检查 引导 到 
每 一 个 状态 的 隐藏 状态 的 路 径 ， 如 图 9.11 所 示 ， 要 从 终点 到 开始 点 进行 
反 向 追踪 ， 找 出 最 佳 路 径 ， 这 叫做 韦 特 比 反 向 追踪 (Viterbi 


backtrace) 。 
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图 9.11 BER IA ER 


在 韦 特 比 反 同 追 踪 时 ， 当 我 们 把 每 一 条 路 径 伸张 到 一 个 新 的 状态 以 
便 过 小 到 下 一 个 观察 时 ， 我 们 把 一 个 反 回 指针 指 癌 《图 9.11 中 用 破 雁 的 
虚线 表示 ) 引导 我 们 到 达 这 个 状态 的 那 条 最 佳 路 径 。 


例如 ， 我 们 在 是 时 间 步 2 计算 出 V。 C1) =0.048 为 最 大 值 之 后 ， 还 要 
进行 反 向 追踪 ， 通 过 反 回 指针 返回 到 时 间 步 1 和 初始 状态 Start， 找 到 最 
佳 的 路 径 为 Start HC。 我 们 在 时 间 步 3 计算 出 Va (2) =0.007 68 为 最 
大 值 之 后 ， 还 要 进行 反问 妃 踊 返回 到 时 间 步 2、 时 间 步 1 和 初始 状态 
Start， 找 到 隐藏 在 观察 “313” 后 面 的 最 佳 路 径 为 Start 2 H 2 C 2 H« ait 
是 韦 特 比 算法 的 解码 结果 。 

现在 ， 我 们 回 过 头 去 ， 用 HMM 和 韦 特 比 算 法 的 观点 ， 继 续 讨论 随 
机 词类 标注 的 问题 。 





我 们 知道 ， 在 所 有 的 随机 词类 算法 后 面 的 直觉 是 “对 某 个 单词 选取 





最 可 能 的 标记 ”这 种 方法 的 最 简单 的 概括 。 在 这 里 “单词 "是 观察 序 
Jj, “最 可 能 的 词类 标记 ”就 是 隐藏 的 “状态 序列 ”。 





爱 依 斯 讷 所 举 的 关于 冰淇淋 的 例子 中 ， 吃 冰淇淋 数量 是 观察 序列 ， 
天 气 冷 热 变化 的 情况 是 状态 序列 ， 使 用 隐 马 尔 科 夫 模 型 和 韦 特 比 算 法 ， 
就 可 以 根据 吃 冰 湛 淋 的 数量 推测 出 隐藏 在 后 面 的 天 气 冷 热 变化 的 状态 序 
列 。 


在 随机 词类 标注 算法 中 ， 单 词 是 观察 序列 ， 相 当 于 爱 依 斯 讷 例子 中 
的 吃 冰 湛 淋 的 数量 ， 词 类 标记 是 隐藏 的 状态 序列 ， 相 当 于 爱 依 斯 讷 例子 
中 的 隐藏 的 天 气 冷 热 变化 的 状态 序列 。 因 此 ， 我 们 可 以 仿照 爱 依 斯 讷 例 
子 中 的 方法 来 进行 随机 词类 标注 。 





对 于 一 个 给 定 的 句子 或 单词 序列 ， 我 们 使 用 HMM 词 类 标注 算法 来 
选择 使 得 下 面 的 公式 为 最 大 值 的 标记 序列 : 
f, = argmaxPX 5,1 t; 4 Pow; | &) 
J 
在 进行 词类 标注 时 ， 句 子 Secretariat is expected to race tomorrow If] 
race 是 一 个 动词 或 名 词 的 兼 类 词 ， 它 可 以 标注 为 VB， 也 可 以 标注 为 
NN， 我 们 把 第 三 章 中 的 图 3.32 复 制 如 下 : 








在 图 9.12 中 ，race 是 观察 序列 ， 隐 藏 在 race 后 面 的 VB 或 NN 是 状态 序 
列 。 我 们 的 任务 是 使 用 HMM 来 决定 隐藏 在 race 后 面 的 词类 标记 究竟 是 
VB， 还 是 NN。 从 原理 上 说 ， 这 与 爱 依 斯 讷 的 冰淇淋 例子 中 根据 吃 冰 淇 
淋 的 数量 来 推测 天 气 变 化 的 状态 序列 是 一 样 的 。 














Secretariat is expected to race tomorrow 
(b) 
Secretariat is expected to race tomorrow 











图 9.12 ”race 的 标记 可 以 为 VB 或 NN 〈 引 自前 面 第 三 章 中 的 图 3.32 

















根据 HMM 标 注 算法 的 公式 可 知 ， 如 果 我 们 试图 在 序列 to race 中 ， 对 
于 race 的 标记 在 NN 和 VB 之 间 进 行 选择 ， 我 们 应 该 从 下 面 两 个 概率 中 ， 
选择 概率 比较 大 的 一 个 作为 race 的 标记 : 


P (VBITO) P (racelVB) 
和 
P (NNITO) P (racelNN) 


根据 Brown 语 料 库 和 Switchboard 语 料 库 的 统计 数据 ， 标 记 序 列 的 概 


P (NN|TO) =0.021 
P (VBITO) =0.34 


词汇 似 然 度 为 : 


P (race|NN) =0.000 41 
P (race/VB) =0.000 03 


如 果 我 们 把 标记 序列 概率 与 词汇 似 然 度 相 乘 ， 得 到 如 下 结果 : 


P ( (VBITO) P (race|VB) =0.34*0.000 03-0 .000 01 
P (NNITO) P (racelNN) =0.021*0.000 41=0.000 007 


HFP C CVB[TO) P (race[lVB) 的 值 0.000 01 大 于 P CNNITO ) 
P (racelINN) 的 值 0.000 007， 因 此 ， 我 们 应 当 把 race 的 标记 确定 为 VB。 
这 就 是 正确 的 词性 标注 结果 。 


当然 ， 一 个 真正 的 HMM 标 注 算法 不 应 该 只 针对 一 个 单独 的 单词 选 
择 最 好 的 标记 ， 而 应 该 针对 整个 的 句子 选择 最 好 的 标记 序列 。 这 样 句 子 
标记 序列 的 计算 是 很 复杂 的 ， 但是， 从 爱 依 斯 讷 所 举 的 冰淇淋 的 例子 不 
难看 出 ， 使 用 韦 特 比 算法 ， 我 们 完全 可 以 胜任 这 样 复杂 的 序列 标记 的 计 
算 工 作 。 








HAT ” 问 前 一 同 后 算法 


我 们 来 讨论 HMM 的 第 三 个 问题 : HMM 的 参数 自动 学 习 问 题 ， 也 就 
是 矩阵 A 和 B 的 上 自动 学 习 问 题 。 形 式 地 说 ， 所 谓 “ 学 习 ”(learming) ， 就 
征 对 于 给 定 观 察 序 列 0 和 HMM 中 可 能 状态 的 集合 ， 来 目 动 地 学 习 HMM 
的 参数 A 和 B。 





这 种 学 习 算法 的 输入 是 无 标记 的 观察 序列 0 和光 在 的 隐藏 状态 Q。 


例如 ， 在 冰淇淋 事件 的 问题 中 ， 我 们 将 从 观察 序列 O={1, 3, 2, .…} 和 
隐藏 状态 集合 H 和 C 开 始 进行 学 习 。 在 词类 标注 的 问题 中 ， 我 们 将 从 观 
察 序列 O={fwl , w , wa ,，..} 和 隐藏 状态 NN, NNS, VBD, IN, VB，... 等 等 
开始 进行 学 习 。 


训练 HMM 的 标准 算法 是 癌 前 - 同 后 算法 Cforward-backward 
algorithm) 或 者 叫做 鲍 姆 - 书 尔 奇 算法 (Baum-Welch algorithm) ， 这 是 
期 望 最 大 化 算法 (Expectation-Maximization ”algorithm， 简 称 EM 算 法 ) 
的 一 种 特殊 情形 。 这 个 算法 将 帮助 我 们 训练 HMM 的 转移 概率 A 和 发 射 
概率 B。 


我 们 在 开始 时 可 以 这 样 来 考虑 : 我 们 训练 的 不 是 一 个 隐 马 尔 可 夫 模 
型 ， 而 是 一 个 普通 的 马尔 可 夫 链 。 由 于 在 马尔 可 夫 链 中 的 状态 是 可 以 观 
畦 到 的 ， 所 以 我 们 就 有 可 能 在 观察 序列 上 运行 这 个 模型 ， 并 且 和 直接 看 出 
我 们 通过 了 哪 一 条 路 径 以 及 每 一 个 观察 符号 是 哪 一 个 状态 生成 的 。 当 
然 ， 在 马尔 可 夫 链 中 ， 没 有 发 射 概率 B。 实 际 上 ， 我 们 可 以 把 马尔 可 夫 
链 看 成 是 退化 的 隐 马 尔 可 夫 模 型 ， 其 中 所 有 观 峙 符号 的 概率 b 都 为 1.0， 

















所 有 其 他 符 吕 的 概率 b 都 为 零 。 这 样 一 来 ， 在 这 个 退化 的 隐 马 尔 可 夫 模 
型 中 ， 我 们 需要 训练 的 概率 仅仅 是 转移 概率 矩阵 A。 

在 状态 i 和 状态 j 之 间 的 一 个 特定 的 转移 概率 a 的 最 大 似 然 佑 计 可 以 
通过 转移 的 次 数 来 计算 ， 我 们 把 转移 的 次 数 记 为 C Gj)» RHA 
状态 i 开始 的 所 有 的 转移 次 数 来 除 它 ， 对 它 进行 归 一 化 ， 计 算 公 式 如 





( ij) 
之 Ci—g) 
qeQ 


在 马尔 可 夫 链 中 ， 因 为 我 们 知道 所 处 的 状态 是 什么 ， 所 以 我 们 可 以 
直接 地 计算 这 个 概率 。 然 而 ， 在 HMM 中 ， 因 为 我 们 不 知道 ， 对 于 一 个 
给 定 的 输入 ， 通 过 机 器 的 状态 完 竟 要 走 哪 一 条 路 径 ， 所 以 ， 我 们 不 能 从 
所 观察 的 句子 或 句子 的 集合 直接 地 来 计数 ， 








解决 这 个 问题 ， 鲍 姆 - 书 尔 奇 算法 提出 了 两 个 符合 直觉 的 思路 。 


第 一 个 思路 是 反复 地 (iteratively) 估计 所 得 的 计数 。 从 转移 概率 和 
观察 概率 的 一 个 估计 值 开 始 ， 反 复 地 使 用 这 些 估 计 概 率 来 推出 越 来 越 好 
的 概率 。 





第 二 个 思路 是 ， 对 于 一 个 观察 ， 计 算 它 的 向 前 概率 ， 从 而 得 到 我 们 
的 估计 概 京 ， 然 后 ， 把 这 个 估计 的 概率 量 ， 在 对 于 这 个 向 前 概率 有 页 献 
的 所 有 不 同 的 路 笃 上 进行 分 摊 。 








为 了 理解 这 种 思路 的 算法 ， 我 们 需要 定义 一 个 与 回 前 概率 有 关 的 概 


率 ， 把 它 叫做 向 后 概率 Cbackward probability) ， 记 为 B。 





回 后 概率 B 是 对 于 给 定 的 自动 机 和 ， 在 状态 i 和 时 刻 t 观 看 从 下 一 个 时 
刻 tt1 到 终点 的 观 穴 概 紊 ， 用 公式 来 表示 如 下 : 


Be G) =P €Co,,,0,5, ..., Or |G, =i, AD 


我 们 使 用 与 计算 向 前 概率 相似 的 归纳 法 来 计算 向 后 概率 : 





1. 初始 化 : 
Br (D =air,，1<i<N 
2. 递归 《因为 状态 0 和 qdr 是 非 发 射 的 ， 所 以 ， 在 这 两 个 状态 的 发 射 
概率 为 0) : 


N 


BL 5 Wab(o Palaris N 1 Star 


j= 


3. 结束 : 


PCOLA) = ol gr) = BO) = Y, avbl o BC) 


图 9.13 说 明了 回 后 归纳 的 步骤 。 





(x) B.G)-2p...())a; bí(o,.,) a 











图 9.13 ”向 后 归纳 的 步骤 
从 图 9.13 可 以 看 出 ， 在 计算 B，(i) 的 时 候 ， 需 要 对 值 B,， CD 使 用 


它们 的 转移 概率 ai 和 它们 的 观察 概率 bj Couí ) 进行 加 权 ， 然 后 连续 地 
把 这 些 B.,， CD 的 值 加 起 来 求 和 。 





现在 让 我 们 来 说 明 ， 在 机 器 中 的 路 径 实 际 上 和 是 隐藏 的 情况 下 ， 怎 样 
使 用 辐 前 概率 和 加 后 概率 从 观察 序列 来 计算 转移 概率 aij ”和 观察 概率 bi 
(0,2) . 








首先 让 我 们 来 说 明 如 何 估计 4，。 我 们 把 公式 
Ktj 

>》 Mig) 
qeQ 


BARAT RUE SORTE. 


。 从 状态 i 到 状态 j 转移 的 期 望 数 
i 从 状态 i 转移 的 期 望 数 
怎样 来 计算 这 个 公式 中 的 分 子 呢 ? 我 们 这 里 是 根据 直觉 来 计算 的 。 
假定 我 们 对 于 给 定 的 转移 i-j 在 观察 序列 中 特定 的 时 刻 t 的 发 生 这 个 事件 
有 某 个 概率 估计 。 如 果 我 们 对 于 每 一 个 特定 的 时 刻 t 都 知道 这 个 概率 ， 
那么 ， 我 们 就 可 以 把 所 有 的 时 刻 t 的 概率 加 起 来 求 和 ， 从 而 估计 出 转移 
i> jait žit 








更 加 形式 地 说 ， 对 于 给 定 的 观察 序列 和 模型 ， 让 我 们 把 概率 & 定义 
为 在 时 刻 t 状 态 为 | 且 在 时 刻 t+1 状 态 为 ] 的 转移 概率 : 


& (i,j) =P (q zi qi =jlO, A) 





为 了 计算 ， 我 们 首先 来 计算 一 个 近似 于 & 的 概率 ， 这 个 概率 包含 
的 观察 概率 与 世 AH. BATE eH ES " (not-quite-£, ) ， 记 为 not- 
quite-£, ， 注 意 ， 这 个 概率 中 O 的 条 件 与 上 面 的 公式 不 同 。 


not - quite - £ (i,j) =P (q =i, qu, =j, OJA) 





图 9.14 说 明了 用 来 计算 not-quite-&， 的 各 个 概率 ， 它 们 是 : 在 有 关 弧 
上 的 转移 概率 ， 在 该 弧 之 前 的 概率 a， 在 该 弧 之 后 的 概率 B， 以 及 恰恰 在 
该 弧 之 后 的 符号 的 观察 概率 。 














图 9.14 计算 在 时 刻 t 状 态 为 且 在 时 刻 t+1 状 态 为 j 的 联合 概率 。 





在 图 9.14 中 ， 说 明了 需要 结合 起 来 产生 概率 P (qt =i, qt ; 1 7j, OA) 
的 各 个 概率 : 概率 aq。， G), PRB, CD ， 转 移 概率 ai o UKIR 
率 bj (0,1) o 


把 这 4 个 概率 相 乘 就 得 到 not-quite-E5 ， 计 算 公 式 如 下 : 


not - quite- £ (i,j) =a, (D apb; Comi) Bur Cp 


ij 
NE FE FEA VRE, AS Mnot-quite-&, KIRE ”， 我 们 可 以 用 
P CODO 来 除 not-quite-5 ， 因 为 : 
ER X,TYlIZ) 
EYI Z) 


对 于 给 定 的 模型 ， 观 察 概率 就 是 整个 语 段 的 疝 前 概率 ， (或 者 ， 换 
一 种 说 法 ， 整 个 语 段 的 向 后 概率 ) ， 因 此 ， 它 可 以 有 许多 方法 来 计算 : 


FK XIY,Z2)-z- 








PUO] A) =a KN) = pl) S al piety) 
j=1 
ORR OR, TLE, 的 最 后 的 等 式 就 是 : 


ua = a. i a,b 0,41 Bik J) 
&( i, j) xs al N) 


从 状态 ji 转移 到 到 状态 j 的 期 望 次 数 就 是 5 的 所 有 t 上 的 总 和 。 对 于 上 
面 公式 中 a 的 估计 ， 我 们 现在 仪 仅 再 需要 一 个 东西 环行 了 ， 这 殊 是 由 状 
态 i 转 移出 的 所 有 的 期 望 次 数 。 我 们 可 以 把 从 状态 i 出 发 的 所 有 的 转移 加 
起 来 就 可 以 得 到 它 。 








"Fi à, JUSTUS SEA 
T=! mE 
25. 58 Es I) 
à pad N "m 
2, t=1 a > á j) 


我 们 还 需要 一 个 重新 计算 观察 概率 的 公式 。 这 是 在 一 个 给 定 的 状态 
j， 观 察 词汇 V 中 的 一 个 给 定 的 符号 w 的 概率 ， 记 为 和 w ) 。 我 们 使 用 下 
列 公式 就 可 以 把 它 算出 来: 

在 状态 7 和 观察 行 号 v, 的 期 望 次 数 
在 状态 7 的 期 望 次 数 
为 此 ， 我 们 需要 知道 在 时 刻 t 和 状态 j 的 概率 ， 我 们 把 这 个 概率 记 为 


aA.. 
M 








bí üp) = 


Yt G) : 
WD ei. A 
这 里 ， 我 们 需要 再 一 次 把 观察 序列 包括 到 概率 中 来 进行 计算 : 


I q, = J, Ol A) 


YI) = — X014) 
图 9.15 说 明了 如 何 计算 在 时 刻 t 和 状态 j 的 概率 y， (j)。 注 意 ， 这 里 
的 y 实 际 上 是 E 的 一 种 退化 的 情况 。 因 此 ， 这 个 图 束 像 把 图 9.14 中 的 状态 i 
和 状态 j 折 又 起 来 而 形成 的 一 个 新 版 本 。 











œQ) BG) 
— = 


图 9.15 ”计算 在 时 刻 t 和 状态 j 的 概率 y，(j) 











正如 图 9.15 所 说 明 的 ， 上 面 公式 中 的 分 子 部 分 等 于 癌 前 概率 和 问 后 
概率 的 乘积 ， 因 此 我 们 得 到 如 下 公式 : 


DB 
MAT" "POOL A) 


ERATE TE SED. ESE ASN, RIE il Ma BER 
总 和 y。 G) ， 其 中 ， 观 察 o。 就 是 我 们 感 兴趣 的 符号 w。 。 对 于 分 母 部 
分 ， 我 们 对 所 有 的 时 间 步 又 求 总 和 y， (j) 。 其 结果 将 是 当 我 们 在 状态 j 
看 到 符号 w 的 时 间 的 百分数 : 


T 


= . 
Y, va) 


EXC AX, ISD", 的 意思 是 “在 时 刻 t 的 观察 为 ww 时 的 所 
有 时 间 上 的 总 和 ”。 


b(v,) = 


对 于 一 个 观察 序列 O， 假 定 我 们 已 经 有 了 转移 概率 A 和 观察 概率 BB 的 
初始 估计 ， 现 在 上 述 公 式 给 我 们 提供 了 一 种 方法 来 “ 重 佑 ”(re- 
estimate) 转移 概率 A 和 观察 概率 B 的 值 。 


这 样 的 “ 重 估 ”是 夫 代 的 癌 前 -向 后 算法 的 核心 。 


向 前 -向 后 算法 从 HMM 的 参数 和 = CA, BO 的 某 个 初始 估计 开始 ， 然 
后 迭代 地 运行 两 个 步 台 。 像 其 他 的 期 望 最 大 算法 (expectation- 
maximization algorithm， 简 称 EM 算 法 ) 一 样 ， 同 前 - 问 后 算法 的 这 两 个 
步骤 是 : 一 个 步骤 是 期 望 化 步骤 Cexpectation step) ， 或 者 叫做 E- 步 又 


(E-step) ， 一 个 步骤 是 最 大 化 步骤 (maximization step) ， 或 者 叫做 M- 


步骤 (M-step) 。 


在 E- 步 又 ， 我 们 根据 前 面 的 A 和 B 的 概率 来 计算 期 望 的 状态 占用 数 Y 
和 期 望 的 状态 转移 数 5。 在 M- 步 骤 ， 我 们 使 用 Y 和 和 来 重 佑 新 的 A 和 B 的 概 
率 。 这 样 不 断 地 重 估 转 移 概 率 A 和 发 射 概率 B， 一 直到 获得 的 满意 的 结 
下 





图 9.16 是 问 前 一 向 后 算法 的 盆 代 人 码 。 


function FORWARD-BACKWARD ( observations of len T, output vocabulary 
V, hidden state set Q ) returns HMM =( A, B) 


initialize A and B 
iterate until convergence 


E - step 


CDBG) 
yj) = V tandj 
ar is. 


(i )a. b )8, 4. CJ) 
aune eas eat ae PR 





aj qp ) 








return A, B 








图 9.16” 问 前 一 辣 后 算法 


里 然 从 原则 上 说 ， 使 用 这 样 的 癌 前 一 回 后 算法 计算 机 可 以 完全 无 指 
导 地 目 动 学 习 到 转移 概率 A 和 发 射 概率 B 的 参数 ， 但 是 ， 在 实际 上 ， 初 
条件 是 非常 重要 的 。 正 是 由 于 这 样 的 原因 ， 使 用 向 前 一 同 后 算法 时 ， 
常 肖 要 给 出 一 些 多 余 的 初始 信息 。 例 如 ， 在 语 首 识 别 中 ，HMM 的 结构 











实际 上 常 利 需要 进行 手工 设置 ， 只 有 发 射 概率 B) 和 非 零 的 转移 概率 
(A) 才 是 从 观察 序列 0 的 集合 中 训练 出 来 的 。 


隐 马 尔 可 夫 模 型 的 数学 思想 是 在 20 世 纪 60 年 代 由 鲍 姆 〈L. E. 
Baum) 和 他 的 同事 们 提出 来 的 名 。 在 20 世 纪 70 年 代 被 卡 内 基 一 梅 隆 大 
“= (CMU) 的 拜 克 (Baker) 和 IBM 公 司 的 杰 里 奈 克 (Jelinek) 等 应 用 
于 语音 自动 识别 中 ， 之 后 又 被 ITBM 公 司 应 用 于 词 形 标注 中 。 在 自然 语言 
的 计算 机 处 理 中 ， 隐 马尔 可 夫 模 型 是 一 种 使 用 广泛 的 模型 。 
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HTE ”语料库 语 诗 学 


在 自然 语言 处 理 研究 中 ， 越 来 越 倾 回 于 从 大 规模 真实 的 语料库 中 获 
取 语 言 知 识 ， 语 料 库 成 为 了 自然 语言 处 理 研究 的 知识 源 ， 它 、 性 得 
到 了 自然 语言 处 理 研究 者 的 普 裔 认可。 本 章 中 ， 我 们 将 介绍 语料库 语言 
学 的 兴起 ， 说 明 建立 和 使 用 语料库 的 意义 ， 讨 论语 料 库 研究 中 的 一 些 原 
则 问题 ， 最 后 介绍 历史 上 的 语料库 以 及 中 国 的 语料库 研究 。 














第 一 阁 ， 语 料 库 语言 学 的 兴起 


英国 哲学 家 罗素 曾经 用 两 个 金字 塔 来 比喻 西方 两 大 传统 哲学 流派 的 
研究 方法 ， 他 在 《西方 哲学 史 》 指 出 :“ 方 法 的 不 同 可 以 这 样 来 刻画 其 
TE ses CHA) EERME EEE TEN ES — T EE 
ES ..... ABC er EU Se A E MR MR RES, JEKE; 但 是 这 
(METI he, MEMA- AE, WeSC PHB BUE. uuu. (或 者 ) 
金字 塔 基底 落 在 观测 事实 的 大 地 上 ， 塔 尖 不 是 朝 下 ， 是 朝 上 的 ;因此 平 
衡 是 稳定 的 ， 什 么 地 方 出 个 裂口 可 以 修缮 而 不 至 于 全 盘 遭 殡 。” 田 这 
里 ， 罗 素 用 倒立 的 金字 塔 来 比喻 理性 主义 的 研究 方法 ， 用 正六 的 金字 塔 
来 比喻 经 验 主 义 的 研究 传统 。 














在 20 世 纪 50 年 代 以 前 ， 现 代 语 言 学 的 传统 ， 无 论 是 规范 语言 学 、 历 
史 语 言 学 或 是 描写 语言 学 ， 都 注重 语言 事实 ， 提 倡 经 验 主义 ， 即 “根据 
对 大 量 事实 的 广泛 观察 ， 得 出 一 个 比较 有 限 的 结论 ” 钙 。 美 国语 言 学 家 
乔 姆 斯 基 (Noam Chomsky) 自 1956 年 开始 发 表 有 关 形 式 语 言 的 一 系列 
论文 ， 在 1969 年 的 《 奈 恩 的 经 验 假 设 》 (Quine's Empirical 
Assumptions) 一 文中 他 说 :“ 然 而 应 当 认 识 到 ，“ 句 子 的 概率 ;这 个 概 
念 ， 在 任何 已 知 的 对 于 这 个 术语 的 解释 中 ， 都 是 一 个 完全 无 用 的 概 
fx." Bb 可 见 ， 乔 姆 斯 基 早 期 完全 排斥 经 验 主 义 的 统计 方法 。 他 主张 采 
用 公理 化 、 形 式 化 的 方法 ， 严 格 地 按照 一 定 的 规则 来 描述 自然 语言 的 特 
征 ， 试 图 使 用 有 限 的 规则 描述 无 限 的 语言 现象 ， 发 现 人 类 普 表 的 语言 机 
制 ， 建 立 所 谓 的 “普遍 语法 ”(universal grammar) 。 自 此 形成 了 转换 生 
成 语法 的 研究 途径 ，60 年 代 末 到 70 年 代 时 期 在 美国 兴盛 一 时 ， 也 大 力 推 
动 了 机 器 翻译 和 上 自然 语言 理解 的 研究 和 发 展 。 

















转换 生成 语法 的 研究 途径 在 一 定 程度 上 死 服 了 传统 语言 学 的 东 些 浆 
病 ， 推 动 了 语言 学 理论 和 方法 论 的 进步 ， 但 它 认 为 统计 只 能 解释 语言 的 
表面 现象 ， 不 能 解释 语言 的 内 在 规则 或 生成 机 制 ， 渐 渐 远 离 经 验 主义 的 
途径 。 这 种 转换 生成 语法 的 研究 途径 实际 上 承继 了 “理性 主义 ”的 哲学 思 








经 验 主 义 和 理 性 主义 两 者 之 间 的 争论 主要 体现 在 知识 论 的 问题 上 : 
ERER (Francis Bacon) | w (John Locke) 等 人 为 代表 的 经 
验 主 义 传统 Cempiricist tradition) 主张 ， 知 识 产 生 的 途径 是 根据 外 界 世 
界 的 数据 和 经 验 来 进行 归纳 和 推理 的 过 程 ， 而 在 欧洲 大 陆 以 笛 卡 儿 
(René Descartes) 等 人 为 代表 的 理性 主义 传统 Crationalist tradition) 则 
提倡 学 习 和 推理 的 途径 是 由 先 验 的 知识 和 与 生 俱 来 的 思想 所 指导 的 。 





然而 ， 人 们 逐渐 发 现 ， 这 种 理性 主义 的 研究 所 得 出 的 语言 规则 似乎 
只 能 适用 于 一 种 子 语言 (sub-language) ， 而 不 能 推广 到 该 子 语言 之 外 
的 于 其 他 语言 现象 ， 具 有 很 大 的 局 限 性 。 面 对 这 样 的 “局 限 性 ”， 人 们 开 
始 思 考 ， 乔 姆 斯 基 的 “普遍 语法 "是否 是 真正 的 语言 规则 ， 是 否 能 够 经 受 
大 量 的 语言 事实 的 检验 ， 语 言 规 则 是 否 应 该 和 语言 事实 结合 起 来 考虑 ， 
而 不 是 一 头 钻 入 理性 主义 的 隧道 ? 











作为 一 位 求实 求 芮 、 虚 怀 咎 谷 的 语言 学 大 师 ， 弄 姆 斯 基 开 始 反 思 ， 
表现 了 与 时 俱 进 的 勇气 。 在 最 近 提 出 的 “了 最 简 方 案 ?" 中 ， 他 认为 ， 所 有 重 
要 的 语法 原则 直接 运用 于 表层 ， 不 同 语言 之 间 的 差异 通过 词汇 来 处 理 ， 
把 具体 的 规则 减少 到 最 低 限 度 ， 开 始 注 重 对 具体 的 词汇 的 研究 。 可 以 看 
出 ， 转 换 生 成 语法 也 开始 对 词汇 重视 起 来 ， 逐 渐 地 改变 了 原来 的 理性 主 
义 的 立场 ， 开 始 与 经 验 主义 妥协 ， 或 者 悄悄 地 癌 经 验 主义 复归 。 























由 于 语言 学 中 经 验 主 义 方 法 的 东山 再 起 ， 注 重 语言 事实 的 传统 重新 


抬头 ， 大 多 数学 者 们 普 遇 认为: 语言 学 的 研究 必须 以 语言 事实 作为 根 
据 ， 必 须 详 尽 地 、 大 量 地 占有 材料 ， 才 有 可 能 在 理论 上 得 出 比较 可 靠 的 
结论 。 传 统 的 语言 材料 的 搜集 、 整 理 和 加 工 完 全 是 靠 手工 进行 的 ， 这 是 
一 种 枯燥 无 味 、 费 力 费 时 的 工作 。 尽 管 一 些 对 于 语言 研究 有 浓厚 兴趣 和 
献 喘 精神 的 语言 学 家 对 于 这 样 的 工作 乐此不疲 ， 但 是 一 般 的 人 对 此 却 望 
而 生 代 。 计 算 机 出 现 之 后 ， 随 着 计算 机 功能 的 逐渐 完善 和 强大 ， 原 先 完 
全 徘 手 工 的 工作 开始 交 给 计算 机 去 做 ， 大 大 地 减轻 了 人 们 的 劳动 。 后 
来 ， 在 这 种 工作 中 逐渐 创造 了 一 些 独特 的 方法 ， 提 出 了 一 些 初 步 的 理 
论 ， 形 成 了 一 门 新 的 学 科 一 一 语料库 语言 学 〈corpus linguistics) ， 由 于 
语料库 是 建立 在 计算 机 上 上 的， 因此， 语料库 语言 学 是 语言 学 和 计算 机 科 
学 交叉 形成 的 一 门 边缘 学 科 。 























在 目前 的 研究 水 平 下 ， 语 料 库 语言 学 主要 是 利用 语料库 对 于 语言 的 
菏 个 方面 进行 研究 ， 仅 仅 是 一 种 新 的 研究 手段 。 严 格 地 说 ， 语 料 库 语 言 
学 还 没有 十 分 完备 的 理论 ， 它 还 不 能 跟 语言 学 中 的 其 他 成 熟 的 学 科 《〈 如 
计算 语言 学 、 社 会 语言 学 、 心 理 语言 学 ) 相提并论 。 尽 管 这 样 ， 这 个 新 
兴 的 研究 领域 一 出 现 ， 就 引起 了 语言 学 界 的 普遍 关注 ， 越 来 越 多 的 语言 
学 家 愿意 采用 语料库 作为 他 们 的 工具 来 研究 语 言 ， 并 取得 了 令 人 可 喜 的 
成 绩 。 





目前 ， 语 料 库 语言 学 主要 研究 机 器 可 该 目 然 语言 文本 的 采集 、 存 
储 、 检 索 、 统 计 、 语 法 标注 、 句 法 语义 分 析 ， 以 及 具有 上 述 功能 的 语 料 
库 在 语言 教学 、 语 言 定 量 分析 、 词 汇 研 究 、 词 语 搭配 研究 、 词 典 编 等、 
语法 研究 、 语 言 文 化 研究 、 法 律 语言 研 究 、 作 品 风 格 分 析 、 目 然 语言 理 
解 和 机 器 翻译 等 领域 中 的 应 用 。 我 们 认为 ， 语 料 库 语言 学 是 自然 语言 计 
算 机 处 理 的 一 个 重要 内 容 。 














BE 建立 和 使 用 语料库 的 意义 


语料库 语言 学 是 以 语料库 作为 研究 对 象 的 。 这 样 的 语料库 必须 以 电 
子 计 算 机 为 载体 来 存放 语言 材料 ， 这 些 存放 在 电子 计算 机 中 的 语言 材料 
是 在 语言 的 实际 使 用 中 真实 出 现 过 的 ， 因 此 ， 它 们 可 以 如 实地 反映 语言 
现象 ,克服 语 言 学 家 观察 语言 现象 时 的 主观 性 和 片面 性 ， 这 样 的 未 经 加 
工 的 语 料 对 于 语言 学 研究 已 经 很 有 用 ; 而 这 些 真实 的 语言 材料 需要 经 过 
标注 、 分 析 、 加 工 处 理 之 后 ， 束 可 以 变 成 更 加 有 用 的 语言 资源 。 所 以 ， 
不 论 是 未 经 加 工 的 “ 生 语 料 ” 或 者 经 过 加 工 的 “ 熟 语 料 ” 都 是 非常 宝贵 的 。 











多 年 来 ， 机 器 翻译 和 自然 语言 理解 的 研究 中 ， 分 析 语 言 的 主要 方法 
是 句法 语义 分 析 。 因 此 ， 在 很 长 一 段 时 间 内 ， 许 多 系统 都 是 基于 规则 
的 ， 而 根据 当前 计算 机 的 理论 和 技术 水 平 ， 很 难 把 语言 学 的 各 种 事实 和 
理解 语言 所 需 的 广泛 的 背景 知识 用 规则 的 形式 充分 地 表达 出 来 ， 这 样 ， 
这 些 基 于 规则 的 机 器 翻译 和 自然 语言 理解 系统 只 能 在 极其 受 限 的 某 些 子 
语言 (sub-language) 中 获得 一 定 的 成 功 。 为 了 摆脱 困境 ， 自 然 语 言 处 
理 的 研究 者 们 开始 对 大 规模 的 非 受 限 的 自然 语言 进行 调查 和 统计 ， 以 便 
采用 一 种 基于 统计 的 模型 来 处 理 大 量 的 非 受 限 语 言 。 不 言 而 喻 ， 语 料 库 
语言 学 将 有 可 能 在 大 量 语言 材料 的 基础 上 来 检验 传统 的 理论 语言 学 基于 
手工 搜集 材料 的 方法 所 得 出 的 各 种 结论 ， 从 而 使 我 们 对 于 自然 语言 的 各 
种 复杂 现象 获得 更 为 深刻 和 更 为 全 面 的 认识 。 












































传统 语言 学 家 获取 语言 知识 的 方法 基本 上 是 通过 “内 省 ”进行 ， 由 于 
目 然 语 言 现象 充满 了 例外 ， 治 学 严谨 的 学 者 们 提出 了 “ 例 不 十 ， 不 立 
E EO 、“ 例 外 不 十 ， 法 不 破 ”( 王 力 〉 A 的 原则 。 我 们 在 本 书 
的 前 言 中 曾经 指出 ， 这 样 的 原则 貌似 严格 ， 实 际 上 却 是 瞩 面 的 。 在 成 干 





上 万 的 语言 数据 中 ， 只 是 靠 十 个 例子 或 十 个 例外 就 来 决定 规则 的 取舍 ， 
难道 真 的 能 够 保证 万 无 一 失 吗 ? 


语料库 是 客观 的 、 可 靠 的 语言 资源 ， 语 言 学 研究 应 当 依 徘 这 样 的 宝 
贵 资源 。 语 料 库 中 包含 着 极为 宝 贯 的 语言 知识 ， 我 们 应 当 使 用 新 的 方法 
和 工具 来 获取 这 些 知 识 。 当 然 ， 前 辈 语 言 学 家 数 二 年 积累 的 语言 知识 
(包括 词典 中 的 语言 知识 ， 语 法 书 中 的 语言 知识 ) 也 是 宝贵 的 ， 但 由 于 
这 些 知 识 是 通过 这 些 语言 学 家 们 的 “内 省 ”或 者 “ 洞 肾 力 ” 友 现 的， 难免 融 
有 主观 性 和 刻 面 性 ， 需 要 我 们 使 用 语料库 来 一 一 地 加 以 审查 。 





Æw (John Sinclair) 一 针 见 血 地 指出 :“ 生 造 的 例子 看 上 去 不 管 
是 多 么 地 可 行 ， 都 不 能 作为 使 用 语言 的 实例 ” 癌 。 





如 有 果 搞 语言 研究 不 使 用 语料库 或 概率 ， 很 可 能 就 只 能 使 用 自己 根 
据 “ 内 省 ”(introspection) 得 到 的 数据 ， 这 是 “第 一 人 称 数据 ”(first 
person data) ， 在 使 用 第 一 人 称 数 据 时 ， 语 言 研究 者 既是 语言 的 数据 的 
分 析 者 ， 又 是 语言 数据 的 提供 者 ; 或 者 使 用 根据 “问卷 调查 ”之 类 的 “ 诱 
S" Celicitation) 得 到 的 数据 ， 这 是 “第 二 人 称 数据 ”(second person 
data) ， 在 使 用 第 二 人 称 数据 时 ， 语 言 研究 者 不 充当 数据 的 提供 者 ， 数 
据 需 要 通过 “作为 第 二 人 称 的 劳 人 ”的 诱导 才能 得 到 ， 如 果 使 用 语料库 的 
数据 作为 语言 研究 的 数据 来 源 ， 那 么 ， 语 言 研究 者 就 不 再 充当 数据 的 提 
供 者 或 诱导 者 ， 而 是 充当 数据 的 分 析 者 了 ， 这 种 “观察 ”(observation ) 
得 到 的 数据 是 “第 三 人 称 数据 ”(third person data) 。 





这 是 多 年 前 魏 罕 了 进 在 《语言 学 应 用 中 的 局 限 性 》 (The Limitation of 
Linguistics Applied ) S 一 文中 提出 的 看 法 ， 我 觉得 这 种 看 法 有 价值 ， 
值得 我 们 中 国人 思考 。 


当然 ， 如 果 使 用 第 三 人 称 的 观察 数据 ， 语 言 学 研究 者 同时 也 可 以 充 
当 数 据 的 “内 省 者 ”或 “ 诱 寻 者 ”"， 所 以 ， 第 一 人 称 和 第 二 人 称 与 第 三 人 称 
征 难 以 分 开 的 。 这 也 惑 是 我 不 反对 “ 担 脑 袋 "这 种 第 一 人 称 方法 的 原因 。 
第 三 人 称 方法 显然 是 比较 科学 的 获取 数据 的 手段 。 








齐 姆 斯 基 (Chomsky) 等 理论 语言 学 家 采用 的 是 第 一 人 称 方法 ， 由 
于 他 们 有 具有 非凡 的 智慧 ， 也 可 以 取得 结 越 的 成 束 ; 心理 语言 学 、 实 验 语 
音 学 采用 的 是 第 二 人 称 方法 ， 也 取得 了 不 少 的 成 采 ;， 而 我 们 现在 则 提倡 
第 三 人 称 方法 ， 当 然 ， 与 此 同时 ， 我 们 仍然 要 充分 地 尊重 第 一 人 称 研究 
者 和 第 二 人 称 研究 者 的 智 臣 和 洞察 力 ， 我 们 并 不 反对 第 一 人 称 的 内 省 法 
和 第 二 人 称 的 诱导 法 。“ 拍 脑袋 ”的 方法 固然 会 产生 主观 性 ， 但 是 ， 脑 袋 
担 得 好 也 并 不 容易 ， 前 硬 语 言 学 家 的 智 臣 和 洞察 力 仍 然 是 值得 称道 的 。 








不 过 ， 我 们 认为 ， 语 言 学 的 一 切 知 识 ， 不 论 是 过 去 通过 “内 
省 ”(introspection) Ww” (elicitation) 得 到 的 知识 ， 最 终 都 有 必要 
放 到 语料库 中 来 “观察 ”(observation) 和 “检验 ”(verification) , REE 
是 正确 的 ， 还 是 片面 的 ， 还 是 错误 的 ， 甚 至 是 殉 请 的 ， 从 而 决定 其 存在 
的 必要 性 ， 决 定 其 是 继续 存在 ， 还 是 放弃 其 存在 。 





在 计算 机 上 建立 了 语料库 之 后 ， 我 们 就 可 以 使 用 机 器 学 习 的 方法 ， 
目 动 地 从 浩如烟海 的 语料库 中 获取 准确 的 语言 知识 。 这 是 语言 学 获取 语 
言 知 识 方式 的 巨大 变化 ， 作 为 二 十 一 世纪 的 语言 学 工作 者 ， 都 应 该 注意 
到 这 样 的 变化 ， 逐 渐 改 变 获取 语言 知识 的 手段 中 。 











语言 知识 和 语 篇 知识 都 包含 在 语料库 当中 。 随 着 语 料 库 加工 的 逐渐 
精细 和 深入 ， 我 们 获得 的 语言 知识 也 就 越 加 准确 和 深刻 。 





语料库 同时 也 是 语言 识 的 宝库 ， 是 最 重要 的 语言 资源 。 语 料 库 中 强 





藏 着 丰富 的 语言 知识 ， 词 汇 知识 、 句 法 知识 、 语 义学 家 有 力 的 研究 工 

具 。 语 料 库 的 使 用 ， 为 语言 学 的 研究 提供 了 一 种 新 的 思维 角度 ， 辅 助人 
们 的 语言 “直觉 ”、“ 内 省 ”和 “诱导 ， 从 而 克服 研究 者 本 人 的 主观 性 和 厂 
面 性 ， 逐 渐 成 为 语言 学 研究 的 主流 方法 。 语 言 学 家 利用 语料库 来 研究 语 
言 学 ， 正 如 天 文学 家 利用 望远镜 来 研究 天 文学 ， 生 物 学 家 利用 显微镜 来 
研究 生物 学 一 样 ， 能 够 使 他 们 如 席 添 人 属 ， 其 意义 是 非常 重大 的 。 望 远 镜 
的 发 明 使 天 文学 家 能 够 观察 到 他 们 过 去 难以 观察 到 的 宏观 世界 的 现象 ， 
显微镜 的 发 明 使 生物 学 家 能 够 观察 到 他 们 过 去 难以 观察 到 的 微观 世界 的 
现象 ， 计 算 机 可 读 的 语料库 就 好 比 语言 学 研究 的 望远镜 和 显 微 锐 ， 语 料 
库 的 使 用 扩展 了 语言 学 家 的 眼界 ， 使 他 们 看 得 更 远 ， 看 得 更 细 ， 从 而 使 
他 们 能 够 发 现 更 多 的 语言 现象 ， 挖 掘 出 更 多 的 语言 事实 ， 把 语言 学 的 研 
完 推 向 一 个 新 的 阶段 。 从 茶 种 意义 上 说 ， 语 料 库 的 使 用 ， 是 语言 学 研究 
的 一 次 革命 性 的 进步 。 











例如 ， 有 一 种 被 称 为 KWIC- 索 引 〈 上 和 下文 关 键 词 索引 ) 的 语料库 软 
件 ， 可 以 帮助 研究 者 一 目 了 然 地 观察 到 词语 的 搭配 情况 。 图 10.1 中 列 出 
J Lewis Carrol 的 《爱丽 丝 仙境 历险 记 》 中 curious 的 词语 搭配 。 


10-1.jpg(c| 图 10.1 上 下 文 关键 词 索 引 )* 


需要 指出 的 是 ， 语 料 库 并 不 是 全 部 的 研究 方法 和 手段 。 它 的 局 限 性 
在 于 上 只 能 提供 语言 事实 的 例证 ， 不 能 对 语言 事实 进行 自动 的 解释 ， 也 不 
能 进行 自动 推理 ， 更 不 能 为 文本 数据 直接 地 提供 文化 和 社会 背景 等 方面 
的 信息 。 语 料 库 在 辅助 人 们 对 于 语言 进行 客观 研究 的 同时 ， 仍 然 离 不 开 
研究 者 本 人 的 语言 直觉 ?和 “内 省 ”， 因 为 ， 科 学 研究 中 的 客观 知识 离 不 
开 主 观 知 识 ， 就 像 主观 知识 离 不 开 客 观 知识 一 样 。 


Bo EPHE A P HI — E R 


问题 


语料库 是 为 一 个 或 多 个 应 用 目标 而 专门 收集 的 、 有 一 定 结构 的 、 有 
代表 性 的 、 可 被 计算 机 程序 检索 的 、 具 有 一 定 规 模 的 语 料 的 集合 。 








语料库 应 该 按照 一 定 的 语言 学 原则 ， 运 用 随机 抽样 方法 ， 通 过 收集 
目 然 出 现 的 连续 的 语言 运用 文本 或 话语 片段 来 建立 。 从 其 本 质 上 讲 ， 语 
料 库 实 际 上 是 通过 对 目 然 语言 运用 的 随机 抽样 ， 以 一 定 大 小 的 语言 样本 
来 代表 某 一 研究 中 所 确定 的 语言 运用 总 体 。 


语料库 一 般 可 分 为 如 下 类 型 : 
e 按 语 料 选取 的 时 间 划 分 ， 可 分 为 历时 语料库 〈diachronic corpus) 


和 共 时 语料库 Csynchronic corpus) 。 


e 按 语 料 的 加 工 深度 划分 ， 可 分 为 标注 语料库 Cannotated corpus) 
和 非 标注 语料库 Cnon-annotated corpus) 。 


e 按 语料库 的 结构 划分 ， 可 分 为 平衡 结构 语料库 Cbalance structure 
corpus) 和 自然 随机 结构 的 语料库 (random structure corpus) 。 


e 按 语料库 的 用 途 划 分 ， 可 分 为 通用 语料库 (general corpus) MẸ 
用 语料库 (specialized corpus) 。 专 用 语料库 又 可 以 进一步 根据 使 用 的 
目的 来 划分 ， 例 如 ， 又 可 以 进一步 分 为 语言 学 习 者 语料库 Clearner 


corpus) 、 语 言 教学 语料库 (pedagogical corpus) 。 








e 按 语 料 库 的 表达 形式 划分 ， 可 分 为 口语 语料库 (spoken corpus) 
和 文本 语料库 (text corpus) 。 


e 按 语 料 库 中 语 料 的 语种 划分 ， 可 分 为 单 语种 语料库 (monolingual 
corpora) 和 多 语种 语料库 (multilingual corpora) 。 多 语种 语料库 又 可 
以 再 分 为 可 比 语料库 (comparable corpora) 和 平行 语料库 (parallel 
corpora) 。 可 比 语料库 的 目的 侧重 于 不 同 语言 之 间 的 特定 语言 现象 的 对 
比 ， 基 本 上 不 使 用 翻译 的 语 料 ， 而 平行 语料库 的 目的 侧重 于 获取 对 应 的 
翻译 实例 ， 必 须 使 用 平行 的 翻译 语 料 饵 。 





e 按 语料库 的 动态 更 新 程度 划分 ， 可 分 为 参考 语料库 (reference 
corpus) 和 监控 语料库 (monitor corpus) 。 人 参考 语料库 原则 上 不 作 动 态 
更 新 ， 而 监控 语料库 则 需要 不 断 地 进行 动态 更 新 。 


从 20 世 纪 90 年 代 初 、 中 期 开始 ， 语 料 库 逐 渐 由 单 语 种 癌 多 语种 发 
展 ， 多 语种 语料库 开始 出 现 。 目 前 多 语种 语料库 的 研究 正明 着 不 断 扩 大 
库容 量 、 深 化 加 工 和 不 断 拓展 新 领域 等 方向 继续 发 展 。 随 着 从 事 语言 研 
完 和 机 器 翻译 研究 的 学 者 逐渐 认识 到 多 语种 语料库 重要 性 ， 国 内 外 很 多 
研究 机 构 都 致力 于 多 语种 语料库 的 建设 ， 并 利用 多 语种 语料库 对 各 种 各 
样 的 语言 现象 进行 了 深入 的 探索 。 





在 建设 或 研究 语料库 的 时 候 ， 我 们 应 当 注 意 语料库 的 代表 性 、 结 构 
性 和 平衡 性 ， 还 要 注意 语料库 的 规模 ， 并 制定 语 料 的 元 数据 规范 。 





下 面 分 别 讨论 这 些 问题 。 这 只 是 本 书 作 者 个 人 的 意见 ， 不 是 规范 标 
准 ， 只 具有 推荐 性 ， 不 具有 强制 性 ， 仅 供 读者 参考 。 


首先 讨论 语料库 的 代表 性 。 


语料库 对 于 其 应 用 领域 来 将， 要 具有 足够 的 代表 性 ， 这 样 ， 才 能 保 
证 基于 语料库 得 出 的 知识 具有 和 较 强 的 普 志 性 和 较 高 的 完备 性 。 





真实 的 语言 应 用 材料 是 无 限 的 ， 因 此 语料库 样本 的 有 限 性 是 无 法 回 
避 的 。 承 认 语 料 库 样本 的 有 限 性 ， 在 语 料 的 选材 上 ， 束 要 尽量 退 求 语 料 
的 代表 性 ， 要 使 有 限 的 样本 语 料 尽 可 能 多 地 反映 无 限 的 真实 语言 现象 的 
特征 。 语 料 库 的 代表 性 不 仅 要 求 语料库 中 的 样本 取 上 自 于 符合 语言 文字 规 
范 的 真实 的 语言 材料 ， 而 且 要 求 语 料 库 中 的 样本 要 来 源 于 正在 “使 用 
中 ”的 语言 材料 ， 包 括 各 种 环境 下 的 、 规 范 的 或 非 规范 的 语言 应 用 。 语 
料 库 的 代表 性 还 要 求 语 料 具有 时 代 性 ， 能 反映 语言 的 发 展 变化 和 当代 的 
语言 生活 规律 。 只 有 通过 具有 代表 性 的 语料库 ， 才 能 让 计算 机 了 解 真 实 
的 语言 应 用 规律 ， 才 有 可 能 让 计算 机 不 仅 能 够 理解 和 处 理 规范 的 语言 ， 
而 且 还 能 够 处 理 不 规范 的 但 被 广泛 接受 的 语言 、 甚 全 包含 有 知 干 错误 的 


语言 。 





























语料库 是 由 自然 发 生 的 语言 数据 组 成 的 。 但 是 ， 是 不 是 任意 一 个 语 
言 数据 集合 ， 从 由 三 个 句子 组 成 的 数据 集合 到 由 三 百 万 个 句子 组 成 的 数 
据 集 合 ， 都 可 以 称 为 一 个 语料库 呢 ? 显然 不 是 这 样 的 。 语 料 库 这 一 术 
语 ， 只 有 用 于 一 个 组 织 结构 严密 的 数据 集合 时 ， 才 是 合适 的 。 这 一 数据 
集合 中 的 数据 是 在 一 定 的 抽样 框 洪 范围 内 采集 而 来 的 。 抽 样 框 架 的 设计 
要 保证 所 采集 的 数据 能 够 挖掘 出 一 定 的 语言 特征 。 抽 样 框架 在 语料库 的 
设计 中 至 关 重 要 。 





要 想 把 以 一 种 目 然 语言 中 的 所 有 话语 都 收集 到 一 个 语料库 中 是 不 可 
能 的 ， 除 非 研 究 的 对 象 是 被 高 度 限 制 的 次 语言 ， 或 者 已 经 不 使 用 了 的 语 
言 。 因 此 ， 语 料 库 要 在 特定 的 抽样 框 染 内 做 到 代表 性 ， 从 而 涵盖 要 研究 
或 者 模拟 的 语言 的 多 种 形式 。 














例如 ， 假 设 为 我 们 要 研发 一 个 对 话 管 理 喜 ， 用 于 电话 预订 聚 销 售 系 
统 ， 并 且 我 们 决定 建立 一 个 语料库 来 帮助 为 我 们 完成 这 项 任务 。 目 的 明 
确 之 后 ， 语 料 库 的 抽样 框 染 也 束 很 清楚 了。 这 时 ， 我 们 需要 从 电话 售 守 
对 话 中 抽取 相关 样本 ， 用 于 要 完成 的 语料库 。 如 果 从 文学 作品 中 抽样 ， 
或 者 从 面对面 的 对 话 中 抽样 ， 都 是 不 合适 的 。 


在 电话 售票 领域 中 ， 有 各 种 不 同类 型 的 票 ， 每 一 种 都 要 求 问 不 同 的 
问题 。 因 此 ， 电 话 售票 语言 会 表现 出 明显 不 同 的 语言 类 型 。 因 此 ， 语 料 
库 中 就 要 包括 各 种 类 型 的 电话 售票 对 话 ， 并 且 将 它们 分 成 相关 的 小 类 
(例如 ， 电 话 售 火车 票 ， 电 话 售 飞机 票 ， 电 话 售 电影 票 ， 等 等 ) ， 从 而 
达到 语料库 的 平衡 。 








最 后 ， 在 每 一 个 这 样 的 类 别 中 ， 只 对 一 个 对 话 录 音 ， 或 者 只 录 一 个 
接线 员 的 对 话 ， 都 是 没有 意义 的 。 如 果 只 对 一 个 对 话 录音 ， 得 到 的 只 是 
一 个 特殊 的 个 例 。 如 果 只 录 一 个 接线 员 的 对 话 ， 不 能 保证 这 样 的 对 话 能 
代表 所 有 接线 员 的 对 话 。 因 此 ， 语 料 库 要 包括 许多 说 话 人 ， 才 能 做 到 有 
代表 性 。 





再 来 讨论 语料库 的 结构 性 。 


语料库 是 有 目的 地 收集 的 语 料 的 集合 ， 不 是 任意 语言 材料 的 堆积 ， 
因此 要 求 语料库 具有 一 定 的 结构 。 在 目前 计算 机 已 经 普及 的 技术 条 件 
下 ， 语 料 库 必 须 是 以 电子 文本 形式 存在 的 、 计 算 机 可 该 的 语 料 集 合 。 语 
料 库 的 逻辑 结构 设计 要 确定 语料库 子 库 的 组 成 情况 ， 定 义 语料库 中 语 料 
记录 的 代码 、 元 数据 项 、 每 个 数据 项 的 数据 类 型 、 数 据 宽 度 、 取 值 范 
制 、 完 整 性 约束 等 。 


我 们 还 有 必要 来 讨论 语料库 的 平衡 性 。 





平衡 因子 是 影响 语料库 代表 性 的 关键 特征 。 在 平衡 语料库 中 ， 语 料 
库 为 了 达到 平衡 ， 首 先 要 确定 语 料 的 平衡 因 了 于 。 影 啊 语言 应 用 的 因 系 很 
多 ， 如 : 学科、 年代、 文体、 地 域 、 登 载 语 料 的 媒体 、 使 用 者 的 年 龄 、 
PEA. SCA at. DA. VBA Cee. AM. DO) 等 。 不 能 把 
所 有 的 特征 都 作为 平衡 因 了 于 ， 只 能 根据 实际 需要 来 选取 其 中 的 一 个 或 者 
儿 个 重要 的 指标 作为 平衡 因子 。 最 党 用 的 平衡 因子 有 和 学科、 年 代 、 文 
体 、 地 域 等 。 应 该 根据 平衡 语料库 的 用 途 来 评测 语料库 所 选择 的 平衡 因 
子 的 恰当 性 。 




















在 建设 语料库 时 ， 还 应 当 考 虑 语料库 的 规模 。 


大 规模 的 语料库 对 于 语言 研究 ， 特 别 是 对 于 自然 语言 处 理 的 研究 具 
有 不 可 蔡 代 的 作用 。 但 随 着 语料库 的 增 大 ， 垃 圾 语 料 带 来 的 统计 垃圾 问 
题 也 越 来 越 严 重 。 而 且 ， 当 语料库 达到 一 定 的 规模 后 ， 语 料 库 的 功能 
不 会 随 着 其 规模 同步 地 增长 。 我 们 应 根据 实际 的 需要 来 决定 语料库 的 规 
模 ， 语 料 库 规模 的 大 小 应 当 以 是 否 能 够 满足 其 希 要 来 决定 。 








我 们 还 应 当 考 虑 语料库 的 元 数据 (meta data) 问题 。 





语料库 的 元 数据 对 语料库 研究 具有 重要 的 意义 。 我 们 可 通过 元 数据 
了 解 语 料 的 时 间 信 息 、 地 域 信息 、 作 者 信息 、 文 体 信 息 等 各 种 相关 信 
B. 也 可 通过 元 数据 形成 不 同 的 子 语料库 ， 满 足 不同 兴 趣 研究 者 的 研究 
需要 ; 还 可 通过 元 数据 对 不 同 的 子 语料库 进行 比较 ， 研 究 和 发 现 一 些 对 
语言 应 用 和 语言 发 展 可 能 有 影响 的 因素 ; 元 数据 还 可 记录 语 料 的 知识 版 
权 信 息 、 语 料 库 的 加 工 信 息 和 管理 信息 。 
































由 于 在 汉语 书面 文本 中 词 与 词 之 间 没 有 空 日 ， 不 便于 计算 机 处 理 ， 
因此 ， 汉 语 书 面 文本 的 语料库 一 般 都 要 进行 切 词 和 词性 标注 。 汉 语 书面 











文本 经 过 切 词 和 词性 标注 之 后 ， 带 有 更 多 的 信息 ， 更 加 便于 使 用 。 


不 过 ， 关 于 语料库 的 标注 Cannotation) 问题 ， 学 术 界 还 存在 不 同 
的 看 法 。 有 的 学 者 主张 对 语 料 进行 标注 ， 他 们 认为 ， 标 注 过 的 语料库 县 
有 开发 和 研究 上 的 方便 性 、 使 用 上 的 可 重用 性 、 功 能 上 的 多 样 性 、 分 析 
上 的 清晰 性 等 优点 。 有 的 学 者 则 对 语料库 标注 提出 批评 。 学 术 界 对 于 语 
料 库 标注 的 批评 主要 来 自 两 方面 : 一 方面 认为 ， 语 料 库 经 过 标注 之 后 失 
去 了 客观 性 ， 所 得 到 的 标注 语料库 是 不 纯粹 的 ， 融 有 标注 者 对 于 语言 的 
主观 认识 ; 另 一 方面 认为 ， 手 工 标注 的 语料库 准确 性 高 但 一 致 性 差 ， 自 
动 或 半自动 的 标注 一 致 性 高 但 准确 性 差 ， 语 料 库 的 标注 难以 做 到 两 全 其 
美 ， 而 目前 大 多 数 的 语料库 标注 都 需要 人 工 参 与 ， 因 而 很 难保 证 语料库 
MENS | 。 我 们 认为 ， 不 论 标注 过 的 语料库 还 是 没有 标注 过 的 
语料库 都 是 有 用 的 ， 其 中 都 隐藏 着 丰富 的 语言 学 信息 等 得 着 我 们 去 挖 
据 ， 我 们 甚至 可 以 使 用 机 器 学 习 的 技术 ， 从 语料库 中 自动 地 获取 语言 知 
识 ， 不 论 标注 过 的 语料库 还 是 没有 标注 过 的 语料库 都 有 助 于 语言 学 的 发 
展 。 









































近年 来 ， 在 语料库 的 建立 和 开 及 中 逐渐 创造 了 一 些 独 特 的 方法 ， 提 
出 了 一 些 初步 的 原则 ， 并 且 对 这 些 方法 和 原则 在 理论 上 进行 了 探讨 和 总 
结 。 由 于 语料库 是 建立 在 计算 机 上 的 ， 因 此 ， 语 料 库 语言 学 是 语言 学 和 
计算 机 科学 交叉 形成 的 一 门 边缘 学 科 。 目 前 语料库 语言 学 主要 是 利用 语 
料 库 对 语言 的 茶 个 方面 进行 研究 ， 是 一 种 新 的 研究 手段 ， 同 时 也 逐步 建 
站 了 自己 学 科 的 理论 体系 ， 正 处 于 迅速 的 发 展 过 程 之 中 。 























语料库 语言 学 是 一 种 新 的 获取 语言 知识 的 方法 。 语 料 库 语言 学 提倡 
建立 语料库 ， 在 计算 机 的 辅助 下 ， 使 用 统计 的 方法 或 机 器 学 习 的 方法 ， 
目 动 或 半 目 动 地 从 海 如 烟 海 的 语料库 中 获取 准确 的 语言 知识 。 随 着 互联 





网 日 新 月 录 的 发 展 ， 互 联网 上 有 痢 无 比 丰富 的 文本 语言 数据 ， 其 中 有 经 
过 标注 的 结构 化 的 语言 数据 ， 也 有 未 经 过 标注 的 非 结构 化 的 语言 数据 ， 
我 们 可 以 从 互联 网 上 这 些 大 量 的 语言 数据 中 目 动 或 半 目 动 地 获取 语言 知 
识 。 这 是 语言 学 获取 语言 知识 方式 的 巨大 变化 ， 在 语言 学 的 发 展 历史 上 
具有 革命 性 的 意义 。 我 们 应 该 敏锐 地 注意 到 这 样 的 变化 ， 努 力学 习 语 料 
库 语 言 学 的 理论 和 方法 ， 逐 渐 改 变 获取 语言 知识 的 手段 。 




















语料库 语言 学 也 为 语言 研究 人 员 提 供 了 一 种 新 的 思维 角度 ， 辅 助人 
们 的 语言 “直觉 * 和 “内 省 ”判断 ， 从 而 克服 语言 研究 者 本 人 的 主观 性 和 片 
面 性 。 我 们 预计 ， 语 料 库 方 法 将 会 逐渐 成 为 语言 学 研究 的 主流 方法 ， 受 
到 语言 研究 者 的 普 近 欢迎 。 





语料库 语言 学 还 为 语言 研究 的 现代 化 提供 了 强 有 力 的 手段 。 语 料 库 
把 语言 学 家 从 艰苦 繁重 的 手工 劳动 中 解放 出 来 ， 使 语言 学 家 可 以 集中 精 
力 来 研究 和 思考 其 他 重要 问题 ， 这 对 于 促进 语言 学 研究 的 现代 化 具有 不 
可 估量 的 作用 。 


目前 ， 语 料 库 语言 学 主要 研究 机 器 可 该 目 然 语言 文本 的 采集 、 存 
储 、 检 索 、 统 计 、 目 动 切 分 、 词 性 标注 、 语 义 标注 ， 并 研究 具有 上 述 功 
能 的 语料库 在 词典 编纂 、 语 言 教学 、 语 言 定量 分 析 、 词 汇 研 究 、 词 语 搭 
配 研究 、 语 法 研究 、 多 语言 跨 文 化 研究 、 法 律 语言 研究 、 作 品 风格 分 析 
等 领域 中 的 应 用 ， 已 经 初步 展现 出 这 门 新 兴学 科 强 大 的 生命 力 ， 并 且 也 
影响 和 推动 了 目 然 语 言 处 理 的 发 展 。 




















第 四 下 ”历史 上 的 语料库 


早 在 1897 年 ， 德 国语 言 学 家 凯 定 J. Kaeding) 就 使 用 大 规模 的 语 
言 材料 来 统计 德语 单词 在 文本 中 的 出 现 频率 ， 编 写 了 《德语 频率 词典 》 
(J. Kaeding, Háufigkeitswórterbuch der deutschen Sprache, Steglitz: 
published by the author, 1897) 。 由 于 当时 还 没有 计算 机 ， 凯 定 使 用 的 语 
言 材 料 不 是 机 器 可 读 的 (machine readable) ， 所 以 他 的 这 些 语言 材料 还 
不 能 算 真 正 意义 上 的 语料库 ， 但 是 ， 凯 定 使 用 大 规模 语言 资料 来 编写 频 
率 University 词 典 的 工作 ， 是 具有 开创 性 的 。 








1959 年 ， 英 国 伦敦 大 学 教授 奎 克 (Randolph Quirk) 提出 建立 英语 
用 法 调查 语料库 ， 叫 做 SEU (Survey of English Usage) ， 后 来 他 根据 这 
个 语料库 领导 编写 了 著名 的 《当代 英语 语法 》 。 


不 久 ， 弗 兰 西 斯 (Nelson Francis) 和 库 寨 拉 (Henry Kucera) 在 美 
国 布 明 大 学 〈Brown University) 召集 了 一 些 语料库 的 有 识 之 士 ， 建 立 了 
布 明 语料库 (BROWN corpus) ， 这 是 世界 上 第 一 个 根据 系统 性 原则 采 
集 样本 的 标准 语料库 ， 规 模 为 100 万 词 次 ， 是 一 个 代表 当代 美国 贡 语 的 
语料库 。 


由 英国 兰 卡 斯 特大 学 的 里 奇 倡议 ， 由 挪威 奥斯陆 大 学 COslo 
University) 的 约翰 森 〈Stig Johansson〉 主 持 完 成 ， 最 后 在 挪威 皇 尔 根 大 
学 (Bergen University) 的 挪威 人 文科 学 计算 中 心 联 合 建立 了 LOB 语 料 
Æ (LOB 是 Lancaster，Oslo 和 Bergen 的 首 字母 简称 ) ， 规 模 与 布衣 语 料 
库 相 当 ， 这 是 一 个 代表 当代 英国 英语 的 语料库 。 








欧美 各 国学 者 利用 这 两 个 语料库 开展 了 大 规模 的 研究 ， 其 中 最 引 人 
注目 的 是 对 语料库 进行 语法 标注 的 研究 。20 世 纪 70 年 代 。 格 林 讷 
(Greene) MS (Rubin) 设计 了 一 个 基于 规则 的 自动 标注 系统 
TAGGIT 来 给 布朗 语料库 的 100 万 词 的 语 料 做 上 自动 词性 标注 ， 正 确 率 为 
77%。 


里 奇 领 导 的 UCREL (University Centre for Computer Corpus Research 
on Language) 研究 小 组 ， 根 据 成 分 似 然 性 理论 ， 设 计 了 
CLAWS (Constitute Likelihood Automatic Word-tagging System) 系统 来 
给 LOB 语 料 库 的 100 万 词 的 语 料 做 上 自动 词性 标注 ， 根 据 统 计 信 息 来 建立 
算法 ， 自 动 标注 正确 率 达 969%， 比 基于 规则 的 TAGGIT 系 统 提高 了 将 近 
209%6。 最 近 他 们 同时 考察 三 个 相 邻 标记 的 同 现 频率 ， 使 自动 语法 标注 的 
正确 率 达 到 99.59%。 这 个 指标 已 经 超过 了 人 工 标注 所 能 达到 的 最 高 正确 





20 世 纪 60 年 代 初 ， 英 国 伦敦 大 学 奎 元 教授 主持 的 英语 用 法 调查 研究 
课题 组 曾经 收集 了 2000 个 小 时 的 谈话 和 广播 等 口语 素材 ， 并 把 这 些 口语 
素材 整理 成 书面 材料 ， 后 来 ， 瑞 典 隆 德 大 学 教授 斯 瓦尔 特 维 元 

(J.Svartvik) 主持 ， 把 这 些 书面 材料 全 部 录入 计算 机 ， 在 1975 年 建成 了 
伦敦 - 隆 德 英语 口语 语料库 (London-Lund corpus) ， 收 篇 日 87 篇 ， 每 篇 
5000 词 ， 共 为 43.4 万 词 ， 进 行 了 详细 的 韵律 标注 (prosodic marking) 。 





以 上 这 三 个 语料库 都 储备 在 挪威 插 尔 根 大 学 的 国际 现代 英语 计算 机 
档案 〈International Computer Archive of Modern English， 人 简称 ICAME ) 
的 数据 库 中 。 


1964 年 ， 朱 兰 德 CAJuilland) 和 罗 德 里 新 (E.Chang-Rodriguez) 根 
据 大 规模 的 西班牙 语 资料 来 编写 《西班牙 语 单词 频率 词典 》 Li] 








(Frequency Dictionary of Spanish Words) 。 在 收集 语言 资料 时 ， 注 意 到 
了 抽样 框架 、 语 言 资料 的 平衡 性 、 语 言 资料 的 代表 性 等 问题 。 


20 世 纪 80 年 代 以 后 ， 陆 续 建 并 了 一 些 以 词典 编 复 为 应 用 背景 的 大 规 
模 语料库 。 在 辛 克 莱 (John Sinclair》 教授 的 领导 下 ， 英 国 伯明翰 大 学 
(Birmingham University) 与 科林斯 出 版 社 (Harper Collins) 合作 ， 建 
并 了 COBUILD 语 料 库 (Collins Birmingham University International 
Language Database， 首 字母 缩写 就 是 COBUILD) . 





1987 年 ，Collins 出 版 社 出 版 了 建立 在 COBUILD 语 料 库 基础 上 的 英 
语词 典 ， 词 条 选 目 、 用 法 说 明和 释义 都 直接 来 自 真实 的 语 料 ， 由 辛 殉 莱 
教授 担任 总 编辑 ，COBUILD 词 典 出 版 后 ， 得 到 读者 的 广泛 好 评 ， 影 啊 
很 大 ， 现 在 又 出 版 了 各 种 用 途 的 COBUILD 词 典 ， 并 编写 英语 课程 教科 
书 (COBUILD English Course) 。2003 年 这 个 语料库 的 规模 已 经 达到 5 
亿 词 次 ， 其 中 包含 1 500 万 词 次 的 口语 语料库 。 这 个 大 规模 的 COBUILD 
语料库 ， 又 可 以 叫做 “英语 银行 ”〈(Bank of English) 。 











20 世 纪 80 年 代 还 建立 了 姑 文 语料库 (Longman corpus) ， 也 应 用 于 
词典 编 复 。 这 个 语料库 由 明文 - 兰 卡 斯 特 贡 语 语料库 CLLELC) . BAS 
口语 语料库 (LSC) 和 上 明文 英语 学 习 语料库 (CLE) 等 三 个 语料库 组 
成 。 这 个 语料库 主要 用 于 编纂 英语 学 习 词 典 ， 帮 助 外 国人 学 习 英 语 。 规 
模 为 2 000 万 词 次 。 











由 于 这 些 语料库 可 直接 用 于 词典 纺 赛 ， 在 商业 上 获得 了 成 功 ， 语 料 
库 语 言 学 的 研究 开始 从 纯 学 术 走 癌 实 用 ， 词 典 编 紧 是 语料库 语言 学 发 展 
的 推动 力 之 一 。 





美国 计算 语言 学 学 会 (The Association for | Computational 


Linguistics, ACL) 发 起 倡议 的 数据 采集 计划 (Data Collection 
Initiative, DCI) ， 叫 做 ACL/DCI， 这 是 一 个 语料库 项 目 ， 其 宗旨 是 向 

非 赢 利 的 学 术 团 体 提供 语 料 ， 以 免除 费用 和 版 权 的 困扰 ， 用 标准 通用 置 
标语 言 (Standard General Mark-up Language， 简 称 SGML,， ISO 8879, 

1986 年 公布 ) 和 文本 编码 规则 (Text Encoding Initiative, fTEKTED 4 
一 地 对 语料库 进行 置 标 ， 以 便于 数据 交换 。 这 样 的 工作 是 很 有 价值 的 ， 

它 为 语料库 在 不 同 计算 机 环境 下 进行 数据 交换 如 定 了 基础 。ACL /DCI 
的 语 料 范 围 广泛 ， 包 括 华 尔 街 日 报 语料库 、 科 林 斯 瑞 语 词典 、 布 度 语 料 
库 ， 还 有 双语 和 多 语 的 语 料 。 











20 世 纪 80 年 代 末 90 年 代 初 ， 美 国宾 夕 法 尼 亚 大 学 (Pennsylvania 
University) 开始 建立 “ 树 库 ” (Tree bank) ， 对 百 万 词 级 的 语 料 进行 句法 
和 语义 标注 ， 把 线性 的 文本 语料库 加 工 成 为 表示 句子 的 句法 和 语义 结构 
的 树 库 。 这 个 项 目 由 宾 州 大 学 计算 机 系 的 马尔 库 斯 CM. Marcus) X 
持 ， 到 1993 年 已 经 完成 了 300 万 词 的 身 语 句子 的 深加工 ， 进 行 了 句法 结 
构 标 注 。 





在 美国 宾 州 大 学 还 建立 了 语言 数据 联盟 (Linguistic data 
Consortium， 简 称 LDC〉， 实 行 会 员 制 ， 有 163 个 语料库 (包括 文本 的 
以 及 口语 的 ) 参加 ， 共 享 语言 资源 。2000 年 ，LDC 发 行 了 一 个 中 文 树 
库 ， 包 含 10 万 词 ，4 ”185 个 句子 ， 这 是 世界 上 第 一 个 中 文 的 树 库 ， 可 惜 
的 是 规模 比较 小 。 





国外 比较 著名 的 语料库 还 有 : 








AHI 语 料 库 : 美国 Heritage 出 版 社 为 编 复 《美国 传统 词典 》 
(American Heritage Dictionary) 而 建立 ， 有 400 万 词 。 





OTA 牛 津 文本 档案 库 (Oxford Text Archive) : 英国 牛津 大 学 计算 
中 心 建 立 ， 规 模 为 10 亿 字 节 。 


BNC 现 国 国家 语料库 (The British National Corpus) : 1995 年 正式 
发 布 ， 使 用 文本 编码 规范 TEI 编 码 和 通用 标准 置 标语 言 SGML 的 国际 标 
准 ， 有 1 亿 词 次 ， 其 中 书面 语 9000 万 词 次 ， 口 语 1000 万 词 次 。 


RWC 日 语 语料库 : 日 本 新 情报 处 理 开 发 机 构 RWCP 研 制 ， 包 括 《 每 
日 新 闻 》4 年 的 全 文 语 料 ， 语 素 标注 量 达 1 亿 条 。 





亚洲 各 语种 对 译作 文 语料库 : 日 本 国立 国语 研究 所 研制 ， 中 野 洋 主 
fF, TERPS H EFAA SI 








为 了 推进 语料库 研究 的 发 展 ， 欧 洲 成 立 了 TELRI 和 ELRA 等 专门 学 
会 。TELRI 是 跨 欧洲 语言 资源 基础 建设 学 会 (Trans-European Language 
Resources Infrastructure) 的 首 字母 缩写 ， 由 注 克 沫 担任 主席 ， 托 伊 拜 特 
(Wolfgang Teubert) 担任 协调 员 ， 由 欧洲 共同 体 提供 经 党 ， 其 目的 在 
于 建立 欧洲 诸 语言 的 语料库 ， 现 已 经 建成 柏拉图 (Plato) 的 《理想 国 》 
(Politeia) 多 语 语料库 ， 建 立 了 计算 工具 和 资源 的 研究 文档 
TRACTOR (Research Archive of Computational Tools and Resources) , 
正在 语料库 的 基础 上 建立 欧洲 语言 词 库 EUROVOCA。TELRI 每 年 召开 
一 次 研讨 会 。 
ELRA 是 欧洲 语言 资源 学 会 European Language Resources 


Association) 的 首 字母 缩写 ， 


意大利 比萨 大 学 的 扎 普 利 (Zampolli) 教授 担任 主席 ，ELRA 负 
贡 搜 集 、 传 播 语 言 资 源 并 使 之 商品 化 ， 对 于 语言 资源 的 使 用 提供 法 律 文 
持 。ELRA 建 立 了 欧洲 语言 资源 分 布 服 务 处 ELDA (European Language 


Resources Distribution Agency) ， 负 责 研制 并 推行 ELRA 的 战略 和 计划 。 
ELRA 还 组 织 语言 资源 和 评价 e KURRE (Language Resources & 
Evaluation Congress) ， 每 两 年 一 次 。 第 一 次 会 议 于 1998 年 在 西班牙 的 
格拉 纳 达 (Granada) 举行 ; a tu 

(Athens) 召开 ， 第 三 次 会 议 于 2002 年 在 西班牙 的 拉 斯 由 尔 马 斯 CLas 
Palmas de Gran Canaria) 召开 ， 第 四 次 会 议 在 2004 年 在 简 荀 牙 的 里 斯 本 
(Lisbon) 举行 。 


第 五 和 ”中 国 的 语料库 研究 


从 1979 年 以 来 ， 中 国 就 开始 进行 机 器 可 读 语 料 库 (machine-readable 
corpus) 的 建设 ， 早 期 在 中 国 建立 的 主要 的 机 器 可 读 语料库 有 : 





一 一 汉语 现代 文学 作品 语料库 〈1979 年 ) ，527 万 字 ， 武 汉 大 学 。 


现代 汉语 语料库 (19834F) ，2000 万 字 ， 北 京 航空 航天 大 学 。 





一 一 中 学 语文 教材 语料库 (1983 年 ) ，106 万 8 千 字 ， 北 京师 范 大 


现代 汉语 词 频 统计 语料库 (1983 年 ) ，182 万 字 ， 北 京 语言 学 





早期 的 这 些 语料库 多 数 是 采用 手工 键入 的 方式 建立 的 ， 耗 时 耗 力 ， 
缺乏 规范 ， 规 模 较 小 ， 重 用 性 着 。 为 了 建设 这 样 的 语料库 ， 需 要 付出 艰 
闻 的 邦 动 ， 北 页 航空 航 天 大 学 计算 机 系 刘 源 教 授 在 该 校 2 ”000 万 字 的 语 
料 库 建设 中 积 筋 成 疾 ， 健 康 受 到 严重 的 损害 ， 不 幸 早 逝 。 我 国语 料 库 的 
早期 建设 者 的 敬业 精神 是 值得 我 们 草 敬 的 。 








北京 航空 航天 大 学 的 语料库 还 进行 了 词 频 统 计 和 汉语 书面 文本 自动 
分 词 研 究 ， 友 现 了 两 种 不 同 的 分 词 上 收 义 字段 : 交集 型 歧义 字段 和 多 义 组 
合 型 歧义 字段 : 





交集 型 上 收 义 切 分 字段 :例如 :“ 地 面积 ”可 能 切 为 “地 面 ” 或 “ 面 
积 ”，“ 面 ”成 为 交 段 ， 从 而 产生 歧义 。 


多 义 组 合 型 歧义 切 分 字段 :例如 :“ 马 上 ”本 身 是 一 个 词 ， 但 也 可 以 
切 为 " 马 *+“ 上 "两 个 单词 ， 而 “马上 ”与 < 马 *+“ 上 ”的 含义 不 同 。 


他 们 曾 对 一 个 48 092 字 的 自然 科学 、 社 会 科学 样本 进行 了 统计 : 交 
集 型 切 分 监 义 518 个 ， 多 义 组 合 型 切 分 歧义 42 个 。 气 此 推 煌 ， 中 文 文本 
中 切 分 歧义 的 出 现 频 度 约 为 1.2 次 /100 字 ， 交 集 型 切 分 歧义 与 多 义 组 合 型 
切 分 歧义 的 出 现 比例 约 为 12:1。 


为 了 推动 汉语 语料库 的 深入 研究 ， 我 国 还 建立 了 初步 的 分 词 规范 : 
1990 年 10 月 ， 在 计算 机 界 和 语言 学 界 的 共同 努力 下 ， 我 国 制定 了 国家 标 
准 GB-13715《 信 息 处 理 用 现代 汉语 分 词 规范 》， 这 个 国家 标准 提出 了 
确定 汉语 单词 切 分 的 原则 ， 是 汉语 书面 语 自 动 切 词 的 重要 依据 。 











1991 年 ， 国 家 语言 文字 工作 委员 会 开始 建立 国家 级 的 大 型 汉语 语 料 
库 ， 以 推进 汉语 的 词法 、 句 法 、 语 义 和 语 用 的 研究 ， 同 时 也 为 中 文 信 息 
处 理 的 研究 提供 语言 资源 ， 其 规模 为 7 000 万 汉字 。 这 个 语料库 是 均衡 
语料库 ， 其 语 料 要 经 过 精心 的 选材 ， 语 料 的 选材 应 受到 如 下 限制 : 


Q@ 时 间 的 限制 : 语 料 描述 具有 历时 特征 ， 着 重 描述 共 时 特征 。 选 取 
从 1919 年 到 当代 的 语 料 《〈 分 为 5 个 时 期 》， 以 1977 年 以 后 的 语 料 为 主 。 





@ 文 化 的 限制 ， 主 要 选取 受过 中 等 文化 教育 的 普通 人 能 理解 的 语 
B. 


(@@) 使 用 领域 的 限制 : 语 料 由 人 文 与 社会 科学 类 、 上 自然 科学 类 和 综合 
类 3 大 部 分 ， 人 文 和 社会 科学 再 分 为 8 大 类 29 小 类 ， 自 然 科 学 再 分 为 6 大 
类 ， 综 合 类 再 分 为 2 大 类 。 主 要 选取 通用 的 语 料 ， 优 先 选取 社会 科学 和 
人 文科 学 的 语 料 。 











为 了 加 工 这 个 国家 级 语料库 ， 国 家 社 科 基金 设立 了 社 科 重大 项 
目 “ 信 息 处 理 用 现代 汉语 词汇 研究 ”， 和 希望 利用 该 项 目的 成 果 来 加 工 这 个 
语料库 。 该 读 题 分 10 个 子 谍 题 : 





QD 信息 处 理 用 现代 汉语 分 词 词 表 

吧 靶 义 切 分 与 专 有 名 词 识别 软件 

G) 词 的 构造 研究 

由 现代 汉语 词类 及 标记 集 规 范 

加 汉语 词类 兼 类 研究 

(9 现代 汉语 的 语法 属性 描述 研 完 

现代 汉语 述 语 动词 机 器 词典 和 档 关 系 研 完 

哆 汉 语 知识 词典 建立 及 词汇 内 部 语义 网 络 描述 研究 
@ 汉 语文 本 短语 结构 的 人 工 标注 


(0 常用 动词 语义 特征 及 词义 搭配 研究 





现在 ， 该 课题 已 经 结 项 ， 国 家 教育 部 语言 文字 应 用 研究 所 成 并 
了 “汉语 语料库 深加工 ”的 课题 组 ， 已 经 完成 了 7 000 万 字 语 料 的 深加工 ， 
正在 逐步 地 把 这 个 生 语 料 库 变 为 熟 语料库 。 


1992 年 以 来 ， 大 量 的 语料库 在 研究 中 文 信息 处 理 的 单位 建立 起 来 ， 
语料库 成 为 了 研究 中 文 信息 处 理 的 基本 语言 资源 。 没 有 语料库 的 文 持 ， 
中 文 信息 处 理 的 研究 将 会 寸步 难 行 。 目 前 ， 建 设 大 规模 真实 文本 语料库 











的 单位 有 : ARER) Tee. IRS OAT. Ab 
Mba AS, WKS. WAS. ENC AS. Ib MBAS. F 
港 城市 大 学 、 东 北大 学 、 哈 尔 滨 工 业 大 学 、 中 国 传媒 大 学 、 中 国 科学 院 
软件 研究 所 、 中 国 科学 院 自动 化 所 、 北 京 外 国语 大 学 日 本 学 研究 中 心 、 
台湾 “中 央 研 究 院 ? 语 言 研究 所 《筹备 处 ) 。 





例如 ， 中 国 传媒 大 学 的 语料库 包括 文本 语料库 (7 ”000 多 万 字 ) 、 
音 视频 语料库 (900 小 时 的 音频 和 视频 语 料 ) 和 精品 语料库 (如 著名 主 
持 人 的 节目 、 获 奖 节目 的 音频 视频 语 料 ) ， 这 是 世界 上 规模 最 大 的 、 多 
模 态 的 汉语 传媒 有 声 语言 的 语料库 ， 语 料 库 加 工 体 系 从 语音 开始 ， 到 文 
字 、 词 语 、 句 子 、 篇 章 都 进行 了 标注 和 处 理 。 


我 国语 料 库 的 建设 与 语言 学 研究 有 着 密切 的 关系 。 例 如 ， 在 中 国 传 
媒 大 学 语料库 的 基础 上 上， 进行 了 汉语 同类 词 短语 的 研究 、 汉 语 插入 语 的 
研究 、 网 络 语言 研究 、 汉 语 熟 语 标记 研究 、 汉 语 *“ 有 ?字句 研究 、 汉 
语 “ 吧 ” 字 研 究 、 汉 语 “ 然 后 ”研究 、 主 持 人 韵律 特点 研究 等 。 语 料 库 成 为 
了 语言 学 研究 的 语言 资源 ， 又 成 为 了 语言 学 研究 的 工具 ， 有 力 地 推动 了 
语言 学 研究 的 发 展 。 








我 国 在 20 世 纪 80 年 代 中 期 就 建立 了 第 一 个 英语 语料库 ， 即 上 海 交 大 
科技 英语 语料库 ， 简 称 JDEST (Jiao Da English for Science and 
Technology) ， 这 个 语料库 是 由 上 海 交 通 大 学 建成 的 。JDEST 的 建成 ， 
为 我 国 大 学 英语 教学 大 纲 的 制定 和 词 表 统 计 做 出 了 积极 的 贡献 。 这 个 语 
料 库 当 时 在 欧洲 受到 语料库 语言 学 界 广泛 关注 ，JDEST 成 为 国际 第 一 代 
语料库 。 后 来 在 我 国 建成 的 英语 语料库 还 有 : ICLE 中 国 子 语料库 、 中 
国 喘 语 学 习 语 料 库 、 大 学 学 习 者 喘 语 口语 语料库 、 中 国 专业 英语 学 习 者 
口语 语料库 、CEC 中 国 英 语 语料库 、 中 学 英语 口语 语料库 等 ， 这 些 英 语 
语料库 都 与 中 国 的 外 语 教学 和 外 语 学 习 紧 密 相 联 。 外 语 教 学 和 外 语 学 习 








征 我 国 应 用 语言 学 的 重要 和 内容， 是 语料库 推动 我 国 应 用 语言 学 发 展 的 又 
一 个 重要 内 容 。 





双语 平行 语料库 也 有 很 大 的 发 展 。 北 京 外 国语 大 学 中 国 英语 教育 中 
心 研制 了 瑞 汉 双语 语料库 ， 北 京 外 国语 大 学 日 本 学 研究 中 心 研制 了 日 汉 
双语 语料库 。 此 外 ， 中 国 科学 院 软件 研究 所 、 目 动 化 研究 所 也 都 研制 了 
有 一 定 规模 的 英汉 双语 语料库 。 








迄今 建立 的 单 语 语料库 不 少 ， 已 经 取得 了 烛 煌 的 成 绩 ， 但 是 双语 并 
行 语料库 不 容易 获得 ， 它 的 构建 和 加 工 是 很 困难 的 工作 。 现 在 我 国 还 没 
有 高 质量 的 、 大 规模 真实 文本 的 英汉 双语 语料库 ， 更 没有 成 熟 的、 可 共 
享 的 加 工 工具 ，2010 年 国家 社会 科学 基金 重大 项 目 中 有 一 项 就 是 “大 规 
模 英 汉 平 行 语料库 的 构建 与 加 工 研究 ”， 资 助 强度 很 大 ， 可 见 国家 对 于 
双语 语料库 建设 的 重视 。 

















目前 ， 语 料 库 的 深加工 受到 各 国学 者 的 普遍 重视 ， 很 多 国家 都 对 语 
料 库 文本 进行 句法 标注 (syntactic annotation) 和 语义 标注 〈semantic 
annotation) ， 把 语料库 进一步 加 工 成 树 库 。 例 如 ， 英 语 有 英国 兰 卡 斯 
特 一 利兹 树 库 (Lancaster-Leeds Tree Bank) 、 美 国有 宾 州 大 学 的 宾 州 树 
JÆ (Penn Tree Bank) ， 德 语 有 TIGER 树 库 和 NEGRA 树 库 ， 捷 克 语 有 布 
拉 格 大 学 的 PDT 树 库 。 








汉语 树 库 的 建设 也 取得 可 喜 的 成 绩 ， 例 如 ， 清 华 大 学 的 TCT 树 库 、 
台湾 “中 央 研 究 院 ”的 Sinica 中 文 树 库 、 哈 尔 滨 工业 大 学 的 汉语 依存 树 
库 、 中 国 传媒 大 学 的 中 文 依存 树 库 、 中 国 科 学 院 计 算 技术 研究 所 的 汉语 
树 库 、 美 国宾 州 大 学 的 宾 州 中 文 树 库 (Penn Chinese Tree Bank) 等 ， 这 
些 树 库 都 成 为 了 重要 的 语言 资源 ， 是 语言 信息 自动 获取 的 重要 工具 。 我 
们 可 以 确 有 把 握 地 说 ， 树 库 的 建设 将 成 为 今后 语料库 研究 的 一 个 发 展 趋 




















可 以 预见 ， 随 着 计算 机 技术 的 进一步 发 展 ， 根 据 现 有 的 语料库 数据 
还 不 能 解决 的 很 多 问题 将 逐渐 有 可 能 逐一 得 到 解决 ， 因 为 人 们 在 不 断 地 
开发 新 型 的 语料库 ， 并 在 编写 使 用 这 些 新 型 语料库 的 程序 。 


总 而 言 之 ， 语 料 库 给 语言 学 研究 提供 了 无 比 丰富 的 语言 资源 。 很 多 
几乎 已 经 成 为 定论 的 语言 规则 需要 我 们 根据 语料库 去 重新 认识 和 评价 ， 
许多 新 的 语言 学 思想 将 从 语料库 的 研究 中 产生 出 来 。 语 言 本 身 确实 是 无 
比 复杂 的 ， 观 察 语 言 现 象 时 ， 我 们 决 不 能 掉以轻心 ， 我 们 应 当 借 助 于 语 
料 库 ， 更 加 努力 地 工作 ， 从 而 推动 语言 学 和 上 自然 语言 处 理 的 发 展 。 
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第 十 一 章 “ 机 器 翻译 


前 面 几 章 ， 我 们 介绍 了 目 然 语 言 处 理 的 理论 和 方法 ， 这 是 本 书 的 理 
论 部 分 。 从 本 章 开 始 ， 我 们 将 介绍 自然 语言 处 理 系统 的 应 用 ， 这 是 本 书 
的 应 用 部 分 。 











自然 语言 处 理 的 应 用 研究 日 新 月 异 。 由 于 计算 机 的 速度 和 存储 量 的 
增加 ， 使 得 在 计算 语言 学 的 一 些 应 用 领域 ， 特 别 是 在 语音 合成 、 语 音 识 
别 、 文 字 识 别 、 拼 写 检 查 、 语 法 检查 这 些 应 用 领域 ， 有 可 能 进行 商品 化 
的 开发 。 上 自然 语言 处 理 的 算法 开始 被 应 用 于 “增强 交 蔡 通 
信 ”(Augmentative and Alternative Communication， 人 简称 AAC) P, if 
音 合成 、 语 音 识 别 和 文字 识别 的 技术 被 应 用 于 “移动 通信 ”(mobile 
communication) 中 。 除 了 传统 的 机 器 翻译 和 信息 检索 等 应 用 研究 进 一 
步 得 到 发 展 之 外 ， 信 息 抽 取 Cinformation extraction) 、 问 答 系 统 

(question answering system) 、 目 动 文 摘 (text summarization) ~ Ais 
的 自动 抽取 和 标 引 (term extraction and automatic indexing) 、 文 本 数据 
24, Ctext data mining) 、 命 名 实体 识别 (naming entity recognition) 、 
计算 机 辅助 语言 教学 〈computer-assisted language learning) 、 子 语言 和 
受 限 语言 Csub-language and controlled language) 等 新 兴 的 应 用 研究 都 有 
了 长 足 的 进展 ， 此 外 ， 由 于 多 语言 互联 网 的 发 展 ， 自 然 语 言 处 理 技术 在 
多 语言 在 线 的 网 络 信息 处 理 (multilingual on-line natural language 
processing) 中 也 得 到 了 应 用 。 自 然 语言 处 理 技术 的 应 用 研究 出 现 了 日 
新 月 异 的 局 面 。 























本 章 介 绍 机 器 翻译 。 


"*h— n SETA PL as d VE 
机 器 翻译 是 自然 语言 计算 机 处 理 的 一 个 历史 悠久 的 部 门 。 


关于 用 机 器 来 进行 语言 翻译 的 想法 ， 远 在 证 希腊 时 代 就 有 人 提出 过 
了 。 当 时 ， 人 们 曾经 试图 设计 出 一 种 理想 化 的 语言 来 代 从 种 类 繁多 形式 
各 异 的 自然 语言 ， 以 利于 在 不 同 民族 的 人 们 之 间 进 行 思想 交流 ， 曾 提出 
过 不 少 方 采 ， 其 中 一 些 方案 束 已 经 考虑 到 了 如 何 用 机 械 手 段 来 分 析 语 言 
的 问题 。 


20 世 纪 30 年 代 之 初 ， 法 国 科学 家 阿尔 楚 尼 CG. B. Artsouni) 提出 了 
用 机 器 来 进行 语言 翻译 的 想法 。 


1933 年 ， 苏 联 发 明 家 特 洛 扬 斯 基 (ILI TPOHHCKMPD 设计 了 用 机 
械 方法 把 一 种 语言 翻译 为 另 一 种 语言 的 机 器 ， 并 在 同年 9 月 5 日 登记 了 他 
的 发 明 。 但 是 ， 由 于 20 世 纪 30 年 代 的 技术 水 平 还 很 低 ， 特 洛 扬 斯 基 的 翻 
译 机 没有 制 成 。 











1946 年 ， 美 国宾 夕 法 尼 亚 大 学 的 埃 克 特 (J. P. Eckert) 和 英和 希 莱 
(J.W. Mauchly) 设计 并 制造 出 了 世界 上 第 一 台电 子 计 算 机 ENIAC， 电 
子 计算 机 惊人 的 运算 速度 ， 启 示 着 人 们 考虑 翻译 技术 的 革新 问题 。 因 
此 ， 在 电子 计算 机 问世 的 同一 年 ， 瑞 国 工程 师 布 斯 (A. D. Booth) ME 
弗 在 讨论 电子 计算 机 的 应 用 范围 时 ， 就 提出 了 利用 计算 机 进行 语言 自动 
翻译 的 想法 。1949 年 ， 韦 弗 发 表 了 一 份 以 《翻译 》 为 题 的 备忘录 ， 正 式 
提出 了 机 器 翻译 问题 。 在 这 份 备 忘 录 中 ， 他 除了 提出 各 种 语言 都 有 许多 
共同 的 特征 这 一 论点 之 外 ， 还 有 两 点 值得 我 们 注意 : 











第 一 ， 他 认为 翻译 类 似 于 解读 密码 的 过 程 。 他 说 :“ 当 我 阅读 一 篇 
用 汉语 写 的 文章 的 时 候 ， 我 可 以 将， 这 篇 文章 实际 上 是 用 英语 写 的 ， 只 
不 过 它 是 用 男 外 一 种 奇怪 的 符号 编 了 人 码 而 已 ， 当 我 在 阅读 时 ， 我 是 在 进 
行 解码 。” 他 的 这 段 话 非常 重要 ， 广 为 流传 ， 我 们 把 英文 原文 写 在 下 
面 : 








"| have a text in front of me which is written in Chinese but I am 
going to pretend that it is really written in English and that it has been 
coded in some strange symbols. All I need to do is strip off the code in 


order to retrieve the information contained in the text." 





这 段 话 中 。 韦 弗 首 移 提 出 了 用 解读 密码 的 方法 进行 机 器 翻译 的 想 
法 ， 这 种 想法 成 为 后 来 噪声 信道 理论 的 小 筋 。 备 筷 录 中 还 记载 了 一 个 有 
趣 的 故事 ， 布 明 大 学 数学 系 的 吉尔 曼 (R. E. Gilmam) 曾经 解读 了 一 篇 
长 约 一 百 个 词 的 土耳其 文 密码 ， 而 他 既 不 异 土 耳 其 文 ， 也 不 知道 这 篇 密 
码 是 用 土耳其 文 写 的 。 韦 弗 认 为 ， 吉 尔 曼 的 成 功 足 以 证 明 解 读 密码 的 技 
巧 和 能 力 不 受 语言 的 影响 ， 因 而 可 以 用 解读 密码 的 办 法 来 进行 机 器 翻 
WE. 





第 二 ， 他 认为 原文 与 译文 “说 的 是 同样 的 事情 ?”， 因 此 ， 当 把 语言 A 
翻译 为 语言 B 时 ， 就 意味 着 ， 从 语言 A 出 发 ， 经 过 某 一 “通用 语 
言 ”(Universal Language) 或 “中 间 语 言 ”(Interlingua) ， 然 后 转换 为 语 
言 B， 这 种 “通用 语言 ?或 中间 语言 >， 可 以 假定 是 全 人 类 共同 的 。 

可 以 看 出 ， 韦 弗 把 机 器 翻译 仅仅 看 成 一 种 机 械 的 解读 密码 的 过 程 ， 
他 远 远 没有 看 到 机 器 翻译 翻译 在 词法 分 析 、 句 法 分 析 以 及 语义 分 析 等 方 
面 的 复杂 性 。 


由 于 学 者 的 热心 倡导 ， 实 业界 的 大 力 文 持 ， 美 国 的 机 器 翻译 研究 一 
时 兴盛 起 来 。1954 年 ， 美 国 乔治 敦 大 学 在 国际 商用 机 器 公司 ABMA 
司 ) 的 协同 下 ， 用 IBM-701 计 算 机 ， 进 行 了 世界 上 第 一 次 机 器 翻译 试 
验 ， 把 几 个 简单 的 俄语 句子 翻译 成 英语 ， 接 着 ， 苏 联 、 英 国 、 日 本 也 进 
行 了 机 器 翻译 试验 ， 机 器 翻译 出 现 热 潮 。 


早期 机 器 翻译 系统 的 研制 受到 韦 弗 的 上 述 思 想 的 很 大 影响 ， 许 多 机 
铝 翻 译 研 究 者 部 把 机 器 翻译 的 过 程 与 解读 密码 的 过 程 相 类 比 ， 试 图 通过 
查询 词典 的 方法 来 实现 词 对 词 的 机 器 翻译 ， 因 而 译文 的 可 读 性 很 差 ， 难 
于 付 诸 实 用 ， 受 到 了 用 户 的 批评 。 








为 了 进一步 了 解 民 意 ， 美 国 科 学 院 在 1964 年 成 并 语言 自动 处 理 咨询 
委员 会 (Automatic Language Processing Advisory Committee， 人 简称 
ALPAC 委 员 会 ) ， 调 查 机 器 翻译 的 研究 情况 ， 并 于 1966 年 11 月 公布 了 
一 个 题 为 《语言 与 机 器 》 (Language and Machine) 的 报告 ， 简 称 
ALPAC 报 告 ， 对 机 器 翻译 采取 否定 的 态度 ， 报 告 宣称 :“ 在 目前 给 机 器 
翻译 以 大 力 文 持 还 没有 多 少 理由 ”; 报告 还 指出 ， 机 器 翻译 研究 遇 到 了 
MELA GEAR AY “tH SC Bite” (semantic barrier) 。 





在 ALPAC 报 告 的 影响 下 ， 许 多 国家 的 机 器 翻译 研究 低潮 ， 许 多 已 
经 建 并 起 来 的 机 器 翻译 研究 单位 遇 到 了 行政 上 和 经 费 上 的 困难 ， 在 世界 
范围 内 ， 机 副 翻 译 的 热 漳 突然 消失 了 ， 出 现 了 空前 请 条 的 局 面 。 








不 过 ， 尺 管 在 永 条 时 期 法国、 日 本 、 加 拿 大 等 过 ， 仍 然 坚 持 着 机 
融 翻 译 研 究 ， 于 是 ， 在 20 世 纪 70 年 代 初 期 ， 机 器 翻 译 又 出 现 了 复苏 的 局 
面 。 





如 果 我 们 把 从 1954 年 第 一 次 机 器 翻译 试验 到 ALPAC 报 告发 表 后 出 


现 的 肃 条 看 成 是 机 需 翻 译 的 草创 期 (19544E—19704E) , WA, M70 
代 初 期 开始 ， 机 器 翻译 便 进 入 的 它 的 复苏 期 (1970 年 一 1976 年 ) 。 


在 这 个 复苏 期 ， 研 究 者 们 普通 认识 到 ， 原 语 和 主语 两 种 语言 的 差 
异 ， 不 仅 只 表现 在 词汇 的 不 同上 上， 而且， 还 表现 在 句法 结构 的 不 同上 ， 
为 了 得 到 可 读 性 强 的 译文 ， 必 须 在 自动 句法 分 机上 多 下 功夫 。 














早 在 1957 年 ， 美 国学 者 英 格 维 在 《句法 翻译 的 框架 》 (Framework 
for syntactic translation ) 一 文中 束 指 出 ， 一 个 好 的 机 器 翻译 系统 ， 应 该 
分 别 地 对 原 语 和 译 语 都 作出 恰如其分 的 描写 ， 这 样 的 描写 应 该 互 不 影 
响 ， 相 对 独立 。 英 格 维 主张 ， 机 器 翻译 可 以 分 为 三 个 阶段 来 进行 。 











第 一 阶段 : 用 代码 化 的 结构 标志 来 表示 原 语 文句 的 结构 ; 
第 二 阶段 : 把 原 语 的 结构 标志 转换 为 译 语 的 结构 标志 ; 
第 三 阶段 :构成 译 语 的 输出 文句 。 


第 一 阶段 只 涉及 原 语 ， 不 受 译 语 的 影响 ， 第 三 阶段 只 涉及 译 语 ， 不 
受 原 语 的 影响 ， 只 是 在 第 二 阶段 才 设计 到 原 语 和 详 语 二 者 。 在 第 一 阶 
段 ， 除 了 作 原 语 的 词法 分 析 之 外 ， 还 要 进行 原 语 的 句法 分 析 ， 才 能 把 原 
语文 句 的 结构 表示 为 代码 化 的 结构 标志 。 在 第 二 阶段 ， 除 了 进行 原 语 和 
译 语 的 词汇 转换 之 外 ， 还 要 进行 原 语 和 译 语 的 结构 转换 ， 才 能 把 原 语 的 
结构 标志 变 成 译 语 的 结构 标志 。 在 第 三 阶段 ， 除 了 作 译 语 的 词法 生成 之 
外 ， 还 要 进行 译 语 的 句法 生成 ， 才 能 正确 地 输出 译文 的 文句 。 








英 格 维 的 这 些 主张 ， 在 这 个 时 期 广 为 传 播 ， 并 被 机 占 翻 译 系 统 的 开 
发 人 员 普 遍 接 受 ， 因 此 ， 这 个 时 期 的 机 絮 翻 译 系 统 几 乎 都 把 句法 分 析 放 
在 第 一 位 ， 并 且 在 句法 分 析 方 面 取得 了 很 大 的 成 绩 。 





这 个 时 期 机 器 翻译 的 另 一 个 特点 是 语法 Cgrammar) 与 算法 
(algorithm) 分 开 。 


早 在 1957 年 ， 英 格 维 就 提出 了 把 语法 与 “机 制 ”(mechanism) 分 开 
AR. RAE ATUL ML”, SCE tA BIE (algorithm) 。 所 谓语 
法 与 算法 分 开 ， 就 是 要 把 语言 分 析 和 程序 设计 分 开 ， 程 序 设 计 工 作者 提 
出 规则 描述 的 方法 ， 而 语言 学 工作 者 使 用 这 种 方法 来 描述 语言 的 规则 。 
语法 和 算法 分 开 ， 是 机 器 翻译 技术 的 一 大 进步 ， 它 非常 有 利于 程序 设计 
工作 者 与 语言 二 作者 的 分 工 合作 。 








这 个 复苏 期 的 机 器 翻译 系统 的 典型 代表 是 法 国 格 勒 诡 布尔 理科 医科 
大 学 应 用 数学 研究 所 ，IMAG) 自动 翻译 中 心 (CETA) 的 机 器 翻译 系 
统 。 这 个 自动 翻译 中 心 的 主任 沃 古 瓦 (B. Vouquois, 1930—1985) 教授 
明确 地 提出 ， 一 个 完整 的 机 占 翻 译 过 程 可 以 分 为 如 下 六 个 步 又 : 

(1) 原 语词 法 分 析 


(2) 原 语句 法 分 析 





(3) 原 语 译 语 词汇 转换 
(4) 原 语 译 语 结构 转换 
(5) 译 语句 法 生成 
(6) 译 语 词法 生成 


这 六 个 步骤 形成 了 “机 器 翻译 金子 塔 ”(MT pyramid) 。 其 中 ， 第 
一 、 第 二 步 只 与 源 语 言 有 关 ， 第 五 、 第 六 步 只 与 目标 语言 有 关 ， 只 有 第 
三 、 第 四 步 牵 涉 到 源 语言 和 目标 语言 二 者 。 可 以 看 出 ， 这 个 机 器 翻译 金 











字 拱 的 左 侧 是 源 语 言 的 分 机 ， 右 侧 是 目标 语言 的 生成 ， 中 间 是 源 语 言 到 
目标 语言 的 转换 。 源 语言 的 分 析 是 独立 于 目标 语言 的 生成 ， 只 是 在 转换 
部 分 才 同 时 涉及 源 语 言 和 目标 语言 。 这 样 的 格局 ， 反 映 了 添 古 瓦 教 
授 “ 独 立 分 析 - 独 立 生成 -相关 转换 ”的 思想 。 这 种 思想 ， 后 来 成 为 了 基于 
规则 的 机 器 翻译 中 的 “独立 分 析 - 独 立 生 成 -相关 转换 ”的 方法 论 原则 。 














他 们 用 这 种 研制 的 俄 法 机 器 翻译 系统 ， 已 经 接近 实用 水 平 。 很 多 基 
于 规则 的 机 需 翻 译 系统 ， 都 是 根据 这 样 的 机 器 翻译 金字 搭 来 构建 系统 
的 。 


中 间 语 言 









语义 分 析 语义 生成 


语义 转换 
句法 分 析 句法 生成 
句法 转换 


EH 目标 语言 
图 11.1 机 器 翻译 金字 塔 





在 这 个 机 器 翻译 金字 塔 中 ， 我 们 要 尽量 使 右 侧 的 目标 语言 与 左 侧 的 
源 语 言 等 价 ， 为 此 ， 可 以 使 用 “直接 翻译 ”, “句法 转换 ”， “语义 转换 ”等 
技术 手段 ， 使 目标 语言 尽 可 能 地 远近 源 语 言 。 显 而 易 见 ， 在 目前 的 技术 
条 件 下 ， 目 标语 言 与 源 语言 要 做 到 百分之百 的 等 价 还 是 不 可 能 的 。 














机 器 翻译 金字 塔 的 塔 尖 上 是 “中 间 语 言 ”， 这 是 韦 弗 在 他 的 《翻译 》 
备忘录 中 假定 存在 的 一 种 全 人 类 共同 的 “通用 语言 "。 这 种 “中 间 语 
言 ”或 “通用 语言 ”是 机 器 翻译 中 一 种 理想 的 境界 ， 目 前 还 不 存在 ; D 
此 ， 我 们 在 具体 的 机 器 翻译 系统 中 ， 还 应 该 使 用 “分 析 一 转换 一 生成 ”的 
技术 ， 尽 量 保证 目标 语言 对 于 源 语言 的 忠实 性 Cadequacy) ， 同 时 也 保 
证 机 器 翻译 出 来 的 目标 语言 尽 可 能 地 流畅 ， 具 有 较 高 的 流畅 性 
(intelligibility) 。“ 忠 实 性 ?和 ?流畅 性 ”应当 是 基于 规则 的 机 器 翻译 系统 
的 评测 标准 。 





























他 们 还 根据 语法 与 算法 分 开 的 思想 ， 设 计 了 一 套 机 器 翻译 软件 
ARIANE-78， 这 个 软件 分 为 ATEF, ROBRA, TRANSF 和 SYGMOR 四 个 部 
分 。 语 言 工 作者 可 以 利用 这 个 软件 来 描述 自然 语言 的 各 种 规则 。 其 中 ， 
ATEF 是 一 个 非 确 定性 的 有 限 状 态 转 换 器 ， 用 于 原 语词 法 分 析 ， 它 的 程 
序 接收 原 语文 句 作为 输入 ， 并 提供 出 该 文句 中 每 个 词 的 形态 解释 作为 输 
Ht; ROBRA 是 一 个 树 形 图 转换 器 ， 它 的 程序 接收 词法 分 析 的 结果 作为 
和 输入， 借助 语法 规则 对 此 进行 运算 ， 输 出 能 表示 文句 结构 的 树 形 图 ; 
ROBRA 还 可 以 按 同 样 的 方式 实现 结构 转换 和 句法 生成 ， TRANSF 可 借 
助 与 双语 词典 实现 词汇 转换 ; SYGMOR 是 一 个 确定 性 的 树 一 链 转换 
器 ， 它 接收 译 语句 法 生成 的 结果 作为 输入 ， 并 以 字符 链 的 形式 提供 出 译 
Bar 
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译 中 必须 保持 原 语 和 译 语 在 语义 上 的 一 致 ， 也 就 是 说 ， 一 个 好 的 机 器 翻 
译 系统 应 该 把 原 语 的 语义 准确 无 误 地 在 译 语 中 表现 出 来 。 这 样 ， 语 义 分 
析 在 机 器 翻译 中 越 来 越 受到 重视 。 


美国 斯 坦 福 大 学 威 尔 元 斯 提出 了 “优选 语义 学 ”(preference 
semantics) ， 并 在 此 基础 上 设计 了 英法 机 器 翻译 系统 ， 这 个 系统 特别 强 


调 在 原 语 和 译 语 生成 阶段 ， 都 要 把 语义 问题 放 在 第 一 位 ， 英 语 的 输入 文 
句 首先 被 转换 成 茶 种 一 般 化 的 通用 的 语义 表示 ， 然 后 再 由 这 种 语义 表示 
生成 法 语 译文 输出 。 由 于 这 个 系统 的 语义 表示 方法 比较 细致 ， 能 够 解决 
仅 用 句法 分 析 方 法 难于 解决 的 歧义 、 代 词 指 代 等 困难 问题 ， 译 文 质量 较 


=i 
[E] o 


20 世 纪 70 年 代 末 ， 机 器 翻译 进入 了 第 三 个 时 期 一 一 繁 末 期 (1976 年 
至 今 ) 。 繁 荣 期 的 最 重要 的 特点 ， 是 机 器 翻译 研究 走 同 了 实用 化 ， 出 现 
了 一 大 批 实用 化 的 机 器 翻译 系统 ， 机 器 翻译 产品 开始 进入 市 场 ， 变 成 了 
商品 ， 由 机 器 翻译 系统 的 实用 化 引起 了 机 器 翻译 系统 的 商品 化 。 


机 器 翻译 的 繁 末 期 是 以 1976 年 加 拿 大 蒙特 利 尔 大 学 与 加 拿 大 联邦 政 
府 翻译 局 联合 开发 的 实用 性 机 器 翻译 系统 TAUM-METEO 正 式 提供 天 气 
预报 服务 为 标志 的 。 这 个 机 器 翻译 系统 投入 实用 之 后 ， 每 小 时 可 以 翻译 
6 万 一 30 万 个 词 ， 每 天 可 以 翻译 1500 一 2000 篇 天 气 预 报 的 资料 ， 并 能 够 
通过 电视 、 报 纸 立 即 公布 。TAUM-METEO 系 统 是 机 器 翻译 发 展 史 上 的 
一 个 里 程 碑 ， 它 标志 着 机 器 翻译 由 复苏 走向 了 繁荣 。 





日 本 富士 通 公 司 开 发 的 ATLAS-I (Automatic Translation System-I) 
系统 是 一 个 建立 在 大 型 计算 机 上 的 英 日 机 器 翻译 系统 ， 该 系统 以 句法 分 
析 为 中 心 ， 可 进行 科学 技术 文章 的 翻译 ， 在 FACOM M380 计 算 机 上 ， 每 
小 时 可 翻译 60 00015]. 


日 本 富士 通 公 司 开发 的 ATLAS-I 机 器 翻译 系统 也 建立 在 大 型 计算 
机 上 ， 但 其 翻译 方式 与 ATLAS-I 不 同 。ATLAS-I 以 句法 分 析 为 中 心 ， 而 
ATLAS-I 则 以 语义 分 析 为 中 心 。 该 系统 建立 了 用 于 表示 概念 之 间 关 系 
和 客观 世界 知识 的 “世界 模型 ”， 在 译文 生成 时 ， 特 别 注意 单词 之 间 的 搭 
配 关 系 和 邻接 关系 ， 在 机 器 翻译 过 程 中 ， 采 用 一 种 叫做 “概念 构造 ”的 中 


间 语 言 来 作为 原 语 和 译 语 的 共同 表达 。 该 系统 目前 用 于 日 英 机 器 翻译 。 


此 外 ， 日 本 的 实用 化 机 器 翻译 系统 还 有 : 日 立 公 司 开发 的 
HICATS (Hitachi Computer Aided Translation System) 4H, HHL 
翻译 系统 ， 日 本 电气 公司 开发 的 PITVOT 英 日 、 日 英 机 器 翻译 系统 ， 三 葵 
电机 公司 开发 的 MELTRAN 日 瑞 机 器 翻译 系统 ， 冲 电气 公司 开发 的 
PENSEE 日 英 机 器 翻译 系统 ， 理 光 公 司 开发 的 RMT 英 日 机 器 翻译 系统 ， 
三 洋 电 气 公司 开 发 的 SWP-7800 日 英 机 器 翻译 系统 ， 东 芝 公 司 开发 的 
TAURAS 英 日 机 器 翻译 系统 ， 日 本 布 拉 维 斯 公司 (BRAVICE 


INTERNATIONAL) 研制 的 BRAVICE PAK 11/73 日 英 机 器 翻译 系统 
Ate 
Ao 








在 欧美 ， 除 了 TAUM-METEO 机 器 翻译 系统 之 外 ， 还 陆续 推出 了 一 
批 实用 化 的 机 器 翻译 系统 。 


法 国 纺织 研究 所 的 TITUS-IV 系 统 ， 可 以 进行 英 、 德 、 法 、 西 班 牙 
等 四 种 语言 的 互 译 ， 每 种 语言 都 有 一 部 14 000 个 词 的 机 器 词典 ， 每 秒 钟 
可 译 240 个 词 ， 主 要 用 于 翻译 纺织 技术 方面 的 文献 。 











美国 在 乔治 敦 大 学 机 器 翻译 系统 的 基础 上 上， 进一步 开发 了 大 型 的 机 
器 翻译 系统 SYSTRAN， 已 提供 试用 。 例 如 ， 提 供给 美国 空军 的 
SYSTRAN 系 统 ， 词 典 有 16.8 万 个 词 干 形式 和 13.6 万 个 词组 ， 可 进行 俄 英 
机 占 翻 译 ， 每 小 时 可 翻译 15 万 词 ， 提 供给 美国 拉 特 塞 元 (Latsec) 公司 
的 SYSTRAN 系 统 ， 可 进行 俄 英 、 英 俄 、 德 英 、 汉 法 、 汉 英 机 器 翻译 ， 
每 小 时 可 译 30 万 一 35 万 个 词 。SYSTRAN 是 目前 应 用 最 为 广泛 、 所 开发 
的 语种 最 为 丰富 的 一 个 实用 化 机 器 翻译 系统 。 

















美国 罗 各 斯 (LOGOS) 公司 开发 的 LOGOS-III 机 器 翻译 系统 ， 可 进 


行 英语 一 越南 语 机 器 翻译 和 英 俄 机 器 翻译 ， 词 典 有 10 万 个 词 。 





美国 国家 航空 航天 局 的 NASA 系 统 ， 可 进行 俄 英 和 英 俄 机 器 翻译 。 


美国 魏 德 纳 CWEIDNERO 通讯 公司 WCC 的 WEIDNER 机 器 翻译 系 
Zt, Wit TRS. BSS. XUESgEDTdE. AXGESCWOEDT 
语 之 间 的 双向 机 器 翻译 ， 并 可 进行 英语 一 阿拉 伯 语 的 单身 机 器 翻译 。 





设 在 华盛顿 的 泛 美 卫生 组 织 研制 成 的 PAHO 系 统 ， 可 进行 西班牙 语 
一 英语 的 机 器 翻译 。 从 1980 年 以 来 ， 己 经 翻译 了 100 多 万 词 的 资料 。 近 
来 ， 他 们 又 推出 了 ENGSPAN 和 SPANAM 两 个 实用 化 系统 。 





德国 西门 子 (SIEMENS) 公司 与 美国 德 克 了 萨 斯 大 学 (Texas 
University) 合作 ， 研 制 成 METAL 系 统 ， 可 进行 德 英 机 器 翻译 ， 词 典 包 


合 1 力 个 词 条 s 


WERKE (Universität des Saarlandes) 研制 成 
SUSY (Saarbrücken Automatic Translation System) 系统 ， 以 德语 为 中 
介 ， 可 以 进行 俄语 、 英 语 、 法 语 、 世 界 语 的 机 器 翻译 。 比 如 ， 由 英语 译 
成 法 语 ， 首 先 要 由 英语 译 成 德语 ， 再 由 德语 译 成 法 语 ， 每 小 时 可 译 15 
000 词 。 


此 外 ， 还 有 一 些 大 规模 的 机 器 翻译 系统 正在 研制 之 中 ， 例 如 ， 
EUROTRA 计 划 、Mu 系 统 、ODA 计 划 、DLT 系 统 等 。 


1978 年 ， 欧 洲 共 同体 在 继续 使 用 和 发 展 SYSTRAN 系 统 的 同时 ， 提 
出 了 欧 共 体 内 七 种 语言 《后 来 变 为 九 种 ) 之 间 进 行 任 一 方向 翻译 的 多 语 
种 机 器 翻译 计划 EUROTRA， 此 计划 于 1982 年 正式 实施 ， 前 后 延续 了 十 
多 年 ， 至 今 尚 未 达到 预期 的 结 


日 本 在 提出 第 五 代 计算 机 计划 的 同时 ， 于 1982 年 至 1986 年 由 政府 开 
展 了 英 日 、 日 英 机 器 翻译 Mu 系统 的 研制 ， 接 着 ， 又 由 通 产 省 出 面 ， 组 
织 与 亚洲 四 个 邻 国 〈 中 国 、 印 度 尼 西亚 、 马 来 西亚 、 泰 国 ) 合作 研究 日 
语 、 汉 语 、 印 度 尼 西亚 语 、 马 来 语 、 泰 语 五 种 语言 互 译 的 多 语言 机 器 翻 
译 ODA 计 划 ， 原 定 于 1987 年 至 1992 年 完成 ， 后 来 延长 至 1995 年 初 完成 。 








欧洲 共同 体 在 1982 年 开始 实施 EUROTRA 计 划 的 同时 ， 还 支持 了 多 
语言 机 器 翻译 系统 DLT 的 可 行 性 研究 。 从 1984 年 开始 ， 改 由 荷兰 政府 和 
荷 兰 的 一 家 软件 公司 BSO 各 出 资 一 半 对 此 系统 的 研制 进行 长 期 的 支持 ， 
从 1984 年 到 1992 年 每 年 投资 均 在 100 万 美元 左右 。DLT 系 统 原 打算 20 世 
纪 90 年 代 中 期 开始 实用 化 ， 可 是 至 今 尚 未 得 到 满意 的 结果 。 





我 国 古 继 美 国 、 苏 联 、 英 国之 后 ， 世 界 上 第 四 个 开展 机 器 翻译 研究 
工作 的 国家 。 当 今 在 机 器 翻译 方面 居于 先进 水 平 的 日 本 ， 是 在 1958 年 才 
开始 进行 机 器 翻译 的 ， 起 步 比 我 国 为 晚 。 


与 国外 机 器 翻译 的 发 展 情 况 相 比较 ， 我 国 机 器 翻译 除了 有 草创 期 、 
复苏 期 和 繁 采 期 之 外 ， 由 于 文化 革命 的 影响 ， 还 有 一 个 非常 特别 的 时 期 
一 一 停滞 期 ， 而 且 ， 由 于 我 国 机 器 翻译 在 理论 上 和 方法 上 以 及 设备 上 的 
底子 都 很 薄 ， 我 国 机 器 翻译 的 每 一 个 时 期 又 都 比 国外 机 器 翻译 的 同样 时 
期 稍微 滞后 。 而 且 ， 我 国 早 期 的 机 器 翻译 基本 上 都 是 基于 规则 的 机 需 翻 
译 ， 语 言 学 家 在 机 口 翻译 研究 中 ， 往 往 起 着 举足轻重 的 作用 。 这 些 都 是 
我 国 机 器 翻译 友 展 的 特点 。 


1956 年 至 1966 年 是 草创 期 。 在 这 个 时 期 ， 我 国学 者 对 机 器 翻译 进行 
了 初步 的 探索 和 试验 。 早 在 1956 年 ， 国 家 便 把 机 器 翻译 研究 列 入 了 我 国 
科学 工作 的 发 展 规划 ， 成 为 其 中 的 一 个 课题 ， 课 题 的 名 称 是 : “机 器 翻 
译 、 自 然 语 言 翻译 规则 的 建立 和 自然 语言 的 数学 理论 ”。1957 年 ， 中 国 





科学 院 语言 研究 所 与 计算 技术 研究 所 合作 ， 开 展 俄 汉 机 器 翻译 的 研究 。 
1959 年 ， 他 们 在 我 国 制造 的 104 大 型 通用 电子 计算 机 上 ， 进 行 了 俄 汉 机 
峰 翻 译 试验 ， 翻 译 了 9 个 不 同类 型 的 、 较 为 复杂 的 句子 。 在 这 个 草创 时 
期 ， 北 京 外 国语 学 院 、 北 京 俄 语 学 院 、 广 州 华南 工学 院 、 哈 尔 滨 工业 大 
学 也 分 别 成 立 了 机 器 翻译 研究 组 ， 开 展 俄 汉 或 英汉 机 需 翻 译 的 试验 。 











1966 年 至 1975 年 是 停滞 期 ， 在 这 个 时 期 ， 除 了 极 少 数 的 机 器 翻译 研 
究 者 在 极端 恶劣 的 条 件 下 继续 进行 理论 探索 之 外 ， 没 有 进行 任何 的 机 器 
翻译 研究 和 试验 。1974 年 在 重庆 一 家 计算 机 杂志 上 发 表 的 综述 国外 机 器 
翻译 新 理论 的 长 篇 论文 ， 成 为 了 这 个 时 期 唯一 的 机 器 翻译 理论 成 果 ， 它 
有 如 空谷 之 足音 ， 汞 起 了 处 于 困境 中 的 机 器 翻译 研究 者 的 学 术 勇 气 。 


1975 年 宇 1987 年 是 复苏 期 ， 在 这 个 时 期 ， 我 国 机 器 翻译 研究 重 振 旗 
至 ， 开 始 复苏 ， 继 续 进 行 机 器 翻译 研究 。1975 年 11 月 ， 在 中 国 科学 技术 
情报 研究 所 设立 了 一 个 由 情报 所 、 语 言 所 和 计算 所 等 单位 的 工作 人 员 组 
成 的 机 器 翻译 协作 研究 组 ， 以 治 金 题 录 5 ”000 条 为 试验 材料 ， 制 定 英 汉 
机 器 翻译 方案 并 上 机 试验 。1978 年 5 月 ， 在 计算 所 111 机 上 进行 抽样 试 
验 ， 抽 样 20 条 ， 达 到 了 预期 的 效果 。 在 这 个 时 期 ， 我 国学 者 还 进行 了 汉 
一 法 / 英 / 日 / 俄 / 德 多 语言 机 器 翻译 试验 以 及 法 汉 、 德 汉 、 日 汉 机 器 翻译 实 
验 ， 取 得 了 一 定 的 成 效 。 


下 面 是 本 书 作者 设计 的 汉 一 法 、 英 、 日 、 俄 、 德 多 语言 机 器 翻译 系 
统 FAJRA 于 1981 年 11 月 4 日 在 法 国 格 勒 诺 布 尔 理科 医科 大 学 的 IBM-4341 
中 型 计算 机 上 进行 汉 外 机 器 翻译 的 一 个 例子 。 他 输入 了 一 篇 汉语 的 短 
文 ， 得 到 了 法 语 、 英 语 、 日 语 、 俄 语 、 德 语 等 5 种 外 国语 的 机 器 翻译 译 
par 


汉语 输入 如 下 : 


汉语 输入 
4 Novembre 1981 


语言 和 通讯 在 人 类 的 生活 中 起 着 重要 的 作用 。 学 者 们 正在 积极 
地 研究 着 语言 的 自动 翻译 。 他 们 提出 了 自动 机 的 理论 和 形式 语法 的 
理论 。 目 动机 是 能 够 识别 语言 的 一 种 抽象 机 器 。 语 法 的 规则 能 够 把 
一 个 树 形 图 目 动 地 转换 成 另 一 个 树 形 图 。 这 个 目 动 翻译 的 系统 已 经 
被 他 们 使 用 了 五 年 。 如 果 我 们 把 这 个 系统 同 其 它 一 些 系统 相 比 较 ， 
t n] DE B EKA o 





得 到 的 法 语 、 英 语 、 日 语 、 德 语 和 俄语 等 五 种 外 语 输出 如 下 : 
法 语 输 出 
4 Novembre 1981 


Le langage et la communication jouent un r le important dans la 
vie humaine. Les savants sont en train d'étudier activement la traduction 
automatique des langages. Ils ont proposé la théorie des automates et la 
théorie des grammaires formelles. Un automate es une machine abstraire 
qui peut reconna tre le langage. La regle de la grammaire peut 
transformer automatiquement une  arborescence en une autre 
arborescence. Ce systéme de la traduction auotmatique a été utilis par 
eux pendant cinq ans. Si nous comparons ce systéme à d'autres 


systémes, alors nous pouvons voir Ses avantage. 
Re a BA 
英语 输出 


4 Novembre 1981 


Language and communication play important role in human life. 
Scholars are actively studying automatic translation of languages. They 
have proposed the theory of automaton and the theory of formal 
grammar. An automaton is an abstract machine that can recognize 
language. Grammar rule can transform a tree graph to another tree graph 
automatically. This system for automatic translation had been used by 
them for five years. If we compare this system with other systems, then 


we can see its advantage. 


日 语 输出 
4Novembre 1981 


Aae BA AOAC BEARER COS. HRS 
lt SHO BRS OD ICHAL CS. RSL A-b Vb YO 
理论 上 FBR IE O Hime HER TS. A-b Vb ld aeu 
as SCEBCE SMO HARM OZ. SHED RMS OE O 
DORO? FAT eEAMOKOT 7 ZFICAMMN Ic BRI SCEMTCE 
4. AMMO RODIOVAF LIRE o CHE bn 
Cojk.CO0PLATAEtBOLZATACH^AASt.bnbniit 
Ofueomseéctscio. 

俄语 输出 


4 Novembre 1981 


H3bIK H KOMMYyYHHKaHH5H HFPpalroT BaXKHY!O pOJIb B 2KH3HH 
JeJIOBedecTBa。  YuéHble AKTHBHO H3ydIOT aBTOMaTHUeckKkHH 
IIeDeBO/I 58I3BIKOB.OHH BbIAJBHIdFOT TeopHiIOdBTOMaTa H Ie0DHIO 


dopMa/ubHoià  rpaMMaTHFH.ABTOMaT eCTb OnHa aócrpakrHas 


MaHlIHHd,. KOTODpas MO:xer pacnuoaHaBaTb 93PIK.IIpaBH7Io 
rpaMMaTHrH  MOxeT  aBTOMaTHHUeCKH  npeBpanaTb OJIHy 
ApeBoBH/IHyro cxeMy Ha /Ipyryro /IDeBOBH/IHyIO CXeMy. DTa CHCTeMa 
aBTOMaTHUeCKOTO IepeBO/I[a HCIHOJ/Ib30BaHa HMH yxKe NATE JIET. 
ECM MPI cpaBHHBaeM 3Ty cHCTeMy C /IDyFHMH CHCTeMaMH, TO MPI 


MOJKEM BH/ICETb ee IIDeHMylUIecTBa. 


德语 输出 
4Novembre 1981 


Die Sprache und die Kommunikation spielen im Leben der 
Menschen wichtige Rolle. Die Wissenschaftler sind gerade dabei, die 
automatische — bersetzung der Sprachen aktiv zu studieren. Sie haben 
die Theorie der Automaten und die Theorie der formalen Grammatiken 
Vorgeschlagen. Ein Automat ist eine abstrakte Maschine, die die 
Sprache erkennen kann. Die Grammatikregel kann einen Baumgraphen 
in einen anderen Baumgraphen automatisch umwandeln. Dieses System 
zur automatischen  bersetzung war von Ihnen soll fünf Jahren 
verwendet worden. Wenn wir dieses System mit anderen Systemen 


vergleichen, dann kónnen wir seinen Vorzug sehen. 


这 是 1981 年 做 的 机 器 翻译 工作 。1981 年 距 今 已 经 有 30 年 ， 在 当时 的 
技术 条 件 下 ， 本 书 作者 得 到 的 这 样 的 机 器 翻译 结果 是 难能可贵 的 。 


1987 年 至 今 是 楷 宋 期。 这 个 时 期 是 以 “ 科 译 1 号 ”机 器 翻译 系统 的 问 
世 为 标志 的 。 继 “ 科 译 1 号 之 后 ， 一 系列 的 实用 化 商品 化 的 机 需 翻 译 系 
统 如 雨 后 春 筹 般 地 推 癌 市 场 ， 我 国 的 机 天 翻译 迈 问 了 实用 化 和 商品 化 的 
阶段 。 


中 国人 民 解 放 军 军事 科学 院 研制 了 “ 科 译 1 号” 实用 型 全 文 与 题 录 兼 
容 的 英汉 机 强 翻 译 系统 ， 于 1987 年 在 北京 通过 了 技术 鉴定 。“ 科 详 1 
号 ?系统 的 语言 理论 基础 是 重 振 东 提 出 的 馆 辑 语义 结构 。 芋 振东 是 “ 科 译 
1 号 ”的 设计 者 ， 他 认为 ， 逻 辑 语 义 是 词典 信息 给 定 的 出 发 点 ， 是 原 语 分 
析 的 目标 ， 是 英汉 语言 转换 的 主要 平面 ， 因 此 ， 必 须 对 逻辑 语义 给 予 特 
别 的 注意 ， 当 然 也 要 注意 词法 和 句法 ， 原 语 分 析 采 用 成 分 功能 关系 语 
法 ， 分 析 与 生成 相对 独立 。“ 科 译 1 号 ?系统 的 基本 原理 是 : 由 原 语 的 线 
性 结构 出 发 ， 经 过 多 层次 、 多 次 数 的 扫描 ， 按 规则 的 顺序 匹配 ， 形 成 以 
动词 为 根 结 点 ， 以 逻辑 语义 项 为 主 结 点 的 多 结 点 、 多 标记 的 树 形 图 ， 最 
后 ， 从 根 结 点 逐 层 展开 ， 形 成 译 语 的 线性 结构 ， 得 到 相应 的 译文 。 该 系 
统 还 采用 了 上 自行 设计 的 专用 的 形式 描述 语言 来 书写 自然 语言 的 处 理 规 
则 ， 实 现 了 语言 规则 与 计算 机 程序 的 彼此 独立 。 




















此 外 ， 该 系统 还 具有 如 下 的 翻译 文 援手 段 : 
C1) 词典 与 规则 库 的 增添 和 修改 手段 ; 
(2) 翻译 过 程 的 退 躁 和 监测 手段 ; 

(3) 为 用 户 提 供 批量 专业 术语 的 增添 手段 
(4). 人 用 词典 编制 手段 ; 


(5) 英语 词汇 动态 分 析 统 计 程 序 。 





该 系统 于 1988 年 由 中 国 计 算 机 软件 与 技术 服务 总 公司 实现 了 商品 
化 ， 命 名 为 “ 译 星 1 号 ”。“ 译 星 1 号 ?在 商品 化 过 程 中 ， 在 语言 词典 和 规则 
方面 作 了 进一步 的 改善 ， 在 软件 硬件 的 开发 环境 方面 作 了 进一步 的 优 
化 。 这 是 我 国 第 一 个 商品 化 的 机 器 翻 译 系统 ， 它 的 出 现 引 起 了 国内 外 机 








器 翻译 界 和 计算 语言 学 界 的 瞩目 ， 被 列 为 我 国 1988 年 计算 机 界 十 件 大事 
之 一 。1991 年 获 国 家 “七 五 ”攻关 重大 成 果 疾 。 








近年 来 ,“ 译 星 1 号 ”重新 设计 ， 重 新 编程 ， 太 展 为 “ 译 星 -92” 机 絮 翻 译 
系统 。 





“PE E-93" HAS UI FRE A: 


(1) 翻译 速度 比 “ 译 星 1 号 ”提高 了 10 倍 。 在 286 微 机 上 ， 每 小 时 可 
译 15 000 词 ， 在 386 微 机 上 ， 每 小 时 可 译 30 000 词 。 


(2) AUP FRM. Fi. DERE, WIVES SEA ATK, KH 
下 拉 式 来 单 。 


(3) 重新 调整 了 词典 结构 ， 在 不 减少 词典 信息 的 前 提 下 ， 所 占 存 
储 空间 是 “ 译 星 1 写 ”的 三 分 之 一 ， 使 系统 的 空间 开销 大 为 减少 。 





(4) 新 增加 向 用 户 开放 的 词典 维护 功能 ， 用 户 可 自行 追加 生词 。 








(5) 纠正 了 “ 译 星 1 号” 词典 中 发 现 的 错误 ， 增 加 了 惯用 法 ， 修 改 了 


现在 ,，“ 译 星 -92” 有 基本 词典 四 万 余 条 ， 专 业 词典 十 部 ， 分 别 为 : 
计算 机 、 经 济 、 通 讯 、 陶 次 、 火 力 发 电 、 印 刷机 械 、 汽 车 拖拉 机 、 石 油 
物探 、 地 质 、 化 工 等 共 十 个 领域 。 专 业 词 汇 量 共 35 万 条 。 


与 此 同时 ， 北 京 市 高 立 电 脑 公司 与 中 国 社会 科学 院 语言 研究 所 合 
作 ， 开 发 了 “高 立 英 汉 机 器 翻译 系统 ”。 


这 个 机 器 翻译 系统 以 具有 普通 意义 的 语言 学 公理 理论 和 原则 作为 语 


言 分 析 器 的 理论 基础 ， 以 智能 化 的 机 器 词典 代 丛 传统 的 信息 参数 词典 ， 
使 句法 规则 与 词 的 个 性 相 结合 ， 使 词义 与 词 的 参数 和 规则 相 结合 ， 整 个 
机 器 翻译 系统 实质 上 是 一 个 词 专家 系统 。 


这 个 机 器 翻 译 系统 还 建立 的 背景 知识 库 ， 把 语义 分 析 与 句法 分 析 有 
效 地 结合 起 来 ， 在 抽象 的 形式 分 析 中 ， 充 分 地 利用 语义 信息 。 


由 于 机 器 词典 与 系统 的 运行 程序 彼此 独立 ， 用 户 可 以 通过 退 踪 信息 
和 词典 维护 程序 来 修改 机 器 词典 的 内 容 ， 这 样 ， 用 户 束 有 可 能 在 目 己 的 
使 用 过 程 中 不 断 地 修改 机 器 词典 ， 不 断 地 提高 机 需 翻 译 的 译文 质量 。 





该 系统 具有 民 好 的 可 扩充 性 和 可 移植 性 ，， 系 统 的 程序 采用 模块 化 
的 方法 来 设计 与 实现 ， 所 有 的 程序 都 用 C 语 言 编写 。 





高 世英 汉 机 器 翻译 系统 由 翻译 子 系统 、 语 言 知 识 管理 子 系统 、 文 援 
了 于 系统 三 个 部 分 组 成 。 





翻译 子 系统 是 高 立 机 需 翻 译 系统 的 核心 ， 它 有 两 方面 的 功能 : 一 是 
控制 整个 翻译 加 工 的 流程 ， 进 行 过 程控 制 、 加 工 方向 控制 、 制 导 控 制 和 
退 踩 控制 ;二 是 负责 规则 的 识别 、 苞 配 、 推 理 和 运算 。 





语言 知识 管理 子 系统 用 于 管理 机 咒 翻 译 系统 的 语言 知识 库 。 语 言 知 
识 库 包括 一 个 基本 词 库 、 一 个 语法 规则 库 和 一 个 背景 知识 库 。 基 本 词 库 
占用 户 开 放 ， 通 过 用 户 界 面 回 用户 提 供 修改 和 增删 词 库 的 手段 。 








支援 子 系统 是 文 持 系 统 运行 和 系统 维护 的 支撑 软件 ， 这 个 子 系统 也 
可 以 通过 用 户 界面 向 用 户 提 供 茶 些 与 实际 使 用 有 关 的 功能 。 





翻译 子 系统 和 部 分 语言 知识 管理 子 系统 放 在 人 硬 卡 里 ， 其 余 的 录入 软 
磁盘 ， 由 系统 提供 的 用 户 界 面 统 一 管理 。 








高 立 机 器 翻译 系统 基本 词 库 收 词 60000 条 ， 语 法 规则 库 收 规则 800 
条 ， 背 景 知 识 库 收 规则 150 条 ， 译 准 率 达 80% 以 上 ， 翻 译 速度 每 小 时 
12000 词 以 上 。 








这 个 商品 化 机 器 翻译 系统 的 开发 前 后 共用 了 15 年 时 间 ， 从 试验 性 的 
题 录 翻 译 系统 和 全 文 翻 译 系 统 发 展 到 实用 型 的 全 文 翻译 系统 。 在 研制 期 
间 ， 系 统 的 研制 者 在 理论 和 技术 上 不 断 探 索 ， 积 累 经 验 ， 系 统 的 设计 思 
想 和 算法 技术 经 历 了 几 次 原则 性 的 调整 和 优化 ; 在 系统 研制 成 功 之 后 ， 
又 经 历 了 两 年 多 的 试验 性 运行 ， 进 行 了 系统 性 能 考核 、 功 能 考核 、 可 移 
植 性 考核 和 通用 性 考核 。 在 此 基础 上 ， 才 投入 了 商品 化 的 开发 ， 于 1992 
年 1 月 在 北京 新 技术 产业 开发 试验 区 通过 了 鉴定 ， 先 后 获得 北京 市 科技 
进步 奖 、 新 加 坡 INFORMATICS'92 国 际 博览 会 计算 机 应 用 软件 银 奖 和 92 
年 第 二 届 中 国 科技 之 光 博 览 会 电子 行业 金奖 ， 已 被 列 入 火炬 计划 。 

















中 国 科 学 院 计算 技 术 研 究 所 开发 了 一 个 智能 型 英汉 机 器 翻译 系统 
863-IMT/EC， 这 个 系统 从 1986 年 开始 研究 ， 经 历 了 理论 探索 (1986 年 
一 1988 年 )、 模 型 系统 试验 (1989 年 一 1990 年 ) 和 实用 系统 开发 等 三 个 
DO E MO a T: 汉语 词 25 000 
条 ， 通 用 规则 1 500 条 ， 此 外 ， 还 有 大 量 的 特殊 规则 和 成 语 规则 。 








智能 型 机 器 翻译 研究 的 内 容 ， 包 括 语言 学 工程 、 翻 译 处 理 软 件 环 境 
和 知识 处 理 环境 三 个 部 分 。 


语言 学 工程 研究 如 何 把 语言 学 知识 和 用 于 机 器 翻译 的 非 语言 学 常识 
进行 归纳 和 形式 化 描述 ， 以 适合 于 计算 机 处 理 。 其 中 ， 语 言 学 知识 包括 
机 器 翻译 过 程 中 需要 用 到 的 词法 、 语 法 、 语 义 以 及 语 用 知识 ， 而 非 语言 
学 常识 包括 机 器 翻译 过 程 中 常常 涉及 的 学 科 分 类 、 背 景 文化 知识 以 及 专 





业 知 识 。 





翻译 处 理 软件 环境 研究 如 何 应 用 形式 化 的 语言 学 知识 和 非 语 言 学 常 
识 实现 从 原 语 输入 到 译 语 输出 的 转化 ， 这 一 过 程 包括 词法 分 析 算 法 、 结 
构 分 析 算 法 、 上 下 文 相 关 处 理 、 译 语 生成 等 分 析 和 推理 机 制 的 实现 技 
术 。 


知识 处 理 环境 研究 如 何 提供 一 套 有 效 的 软件 工具 环境 ， 帮 助 语言 学 
家 归纳 语言 学 知识 和 简单 的 非 语 言 学 常识 ， 实 现 这 些 知 识 的 形式 化 描 
述 ， 并 提供 给 翻译 处 理 软件 使 用 。 











863-IMT/EC 系 统 在 语法 规则 中 引入 了 上 下 文 相关 条 件 测试 ， 实 现 
了 数据 与 操作 一 体 化 处 理 技 术 ， 提 出 了 子 类 语法 (Sub Category 
Grammar， 简 称 SC 语 法 ) 。 


在 机 器 翻译 中 ， 语 义 分 析 是 必 不 可 少 的 ， 以 多 义 分 析 为 例 ， 从 目前 
已 经 开发 的 系统 来 看 ， 大 约 50% 到 70% 的 多 义 语言 现象 可 以 通过 单纯 的 
句法 分 析 来 解决 ， 而 其 余 30% 的 多 义 语 言 现 象 必须 通过 语义 分 析 甚 至 语 
用 分 析 才 能 解决 ， 因 此 ，SC 语 法 把 句法 分 析 和 语义 分 析 结 合 起 来 ， 实 
现 了 句法 和 语义 的 一 体 化 。 

为 了 能 够 上 下 文 相关 条 件 测 试 ，SC 语 法 在 规则 中 骨 入 测试 函数 ， 
把 上 下 文 相 关 处 理 局 部 化 。 测 试 函数 的 形式 为 


Search (L/R, Ran, Comp. ) 
和 


Nsearch (L/R. Ran, Comp.) 


其 中 ，Search 表 示 查 找 相应 成 分 或 者 归 约 的 操作 ，L/R 分 别 表示 问 左 或 
辣 右 搜索 ，Ran 表 示范 围 ，Comp 表 示 需 要 查找 的 成 分 特征 ，Nsearch 是 
Search 的 否定。 





许多 基于 规则 的 原 语 分 析 技 术 ， 分 析 与 转换 的 界限 是 通过 形成 的 内 
部 树 形 图 来 传递 信息 的 ， 而 译 语 的 生成 部 分 需要 反复 对 树 形 图 中 的 结 点 
进行 测试 ， 找 出 相应 的 生成 码 ， 才 能 生成 译文 。 这 不 仅 溪 费时 间 ， 而 
且 ， 由 于 生成 码 的 内 容 和 数量 均 不 容易 确定 ， 往 往 丢 失 许多 信息 ， 使 得 
所 生成 的 译文 的 可 读 性 降低 。SC 语 法 通过 采用 分 析 与 转换 规则 共用 同 
一 个 头 部 和 同一 个 测试 函数 的 方式 ， 实 现 了 分 析 与 转换 的 集成 化 ， 人 简化 
了 分 析 与 转换 的 操作 过 程 ， 提 高 了 译文 的 可 读 性 。 








在 机 器 词典 的 编写 方面 ， 该 系统 对 词 条 进行 局 部 化 处 理 ， 把 与 具体 
单词 有 关 的 一 切 信息 都 存放 在 同一 词 条 下 ， 采 用 单一 的 规范 结构 来 表 
示 。 词 条 中 的 信息 ， 除 了 词法 信息 、 句 法 信息 、 语 义 信 息 、 上 下 文 相关 
言 轧 之 外 ， 还 包括 与 该 词 有 关 的 成 语 及 固定 结构 等 ， 不 单独 另 立 成 语词 
典 来 处 理 成 语 。 














在 翻译 处 理 机 制 方面 ， 该 系统 采用 可 控 层 次 相 容 合 一 机 制 、 上 下 文 
相关 处 理 机 制 、 转 换 生 成 机 制 、 司 发 式 回溯 控制 机 制 、 基 于 不 完备 知识 
的 推理 机 制 、 译 文 质量 多 档 可 调 机 制 等 。 这 些 机 制 都 是 模块 化 的 ， 每 一 
模块 都 按 规则 的 形式 进行 操作 处 理 ， 把 规则 的 特征 作为 程序 的 调用 数据 
参数 ， 使 软件 独立 于 具体 的 文 种 ， 为 进行 多 文 种 的 机 器 翻译 创造 了 条 
fF. 





在 知识 处 理 环境 方面 ， 对 知识 库 采 用 面 癌 对 象 的 方式 ， 分 为 多 个 包 
来 存储 不 同 的 规则 和 词 条 。 规 则 按 学 科 分 包 ， 同 一 学 科 内 义 按 语言 现象 
的 不 同 分 为 更 小 的 包 。 词 典 可 按 学 科 分 包 ， 又 可 按 频 度 分 包 。 上 所 有 这 些 





包 除 了 一 些 局 部 的 维护 和 格式 转化 操作 之 外 ， 都 共 胖 存 取 操 作 、 知 识 重 
组 操作 和 规则 精炼 操作 。 为 了 保证 规则 的 质量 ， 要 检查 规则 的 相 容 性 、 
包含 性 、 互 斥 性 ， 从 而 使 规则 不 断 地 得 到 优化 。 














863-IMTVEC 机 器 翻译 系统 现 已 商品 化 。 中 国 科学 院 计算 技术 研究 
所 与 香港 权 智 集 团 合 作 ， 投 资 1 ”800 万 美元 ， 建 立 了 科 智 语言 信息 处 理 
有 限 公 司 ， 后 来 又 进一步 发 展 成 华 建 公 司 ， 专 门 从事 机 器 翻译 系统 的 开 
发 ， 成 为 我 国 机 器 翻译 的 重要 产业 。 


国防 科技 大 学 于 1994 年 研制 成 英汉 机 器 翻译 系统 Matrix 也 开始 商品 
化 。 该 系统 翻译 速度 在 IBM PC386-DX33 计 算 机 上 ， 每 分 钟 能 翻译 5 000 
一 10 000 个 黄 语 单词 ， 比 国内 外 大 多 数 机 喜 翻 译 系统 的 速度 高 出 1 一 2 个 
数量 级 。 按 照 日 本 电气 工业 促进 协会 JEDA 发 布 的 关于 1992 年 国际 自然 
语言 处 理 现状 的 报告 中 提出 的 标准 ，Matrix 系 统 的 翻译 速度 是 当今 世界 
上 最 快 的 。 








Matrix 系 统 的 词典 可 根据 用 户 的 需要 自行 删改 ， 并 可 独立 于 Matrix 
系统 单独 使 用 ， 还 可 以 配 上 不 同 的 专业 词典 ， 满 足 不 同 专业 的 需要 。 








Matrix 系 统 还 根据 市 场 的 需求 ， 转 化 为 下 列 产 品 : 


一 一 电子 词典 : 由 于 Matrix 系 统 的 词典 是 独立 于 系统 的 ， 因 此 可 以 
转化 为 电子 词典 在 市 场 上 流通 。 


微机 扩展 卡 : 可 以 把 Matrix 系 统 做 成 像 汉 卡 一 样 的 扩展 卡 ， 配 
在 286 以 上 的 微机 上 ， 使 每 台 微 机 都 具有 英汉 机 器 翻译 能 力 ， 由 于 家 用 
微机 的 逐渐 普及 ， 机 需 翻 译 系统 有 可 能 走 入 千家 万 户 。 





不 同 用 途 的 机 絮 翻 译 系 统 ， 配 以 不 同 的 机 器 词典 ， 可 制 成 通用 





和 专用 的 机 器 翻译 系统 。 通 用 机 咒 翻 译 系统 可 为 新 闻 、 信 息 部 门 提 供 快 
速 翻 译 服务 ， 专 用 机 器 翻译 系统 可 成 为 翻译 工作 者 的 得 力 助 手 。 


此 外 ， 中 国 社会 科学 院 语 言 研 究 所 与 北京 文献 服务 处 合作 研制 
的 “天 语 ? 英 汉 机 器 翻译 系统 、 中 国 国防 科技 信息 中 心 的 “ 金 译 达 ”英汉 机 
需 翻 译 系统 ， 也 正在 问 实 用 化 、 商 品 化 的 方 癌 迈进 。 


在 汉 外 机 器 翻译 方面 ， 中 国 计 算 机 软件 与 搁 术 服务 总 公司 开发 了 商 
品 化 的 汉 外 机 器 翻译 系统 Sino Trans， 该 系统 于 1993 年 9 月 通过 了 电子 工 
业 部 的 部 级 鉴定 。 





Sino ”Trans 是 该 公司 独自 投资 用 五 年 时 间 开 发 而 成 的 ， 包 括 汉 英和 
汉 日 两 个 商品 化 的 机 器 翻译 系统 。 


Sino Trans 是 国内 外 第 一 个 能 翻译 汉语 技术 报告 、 论 文 、 报 刊 文 
章 、 产 品 说 明 书 等 文字 资料 的 机 器 翻译 系统 。 其 中 汉 英 系统 的 三 个 用 户 
己 翻 译 了 数 十 万 字 的 科技 资料 ， 节 省 了 50% 的 工作 量 。 


Sino ”Trans 也 是 一 个 多 功能 的 中 文 信息 处 理 系 统 ， 具 备 汉语 自动 切 
词 ， 当 前 词 的 词性 自动 确定 、 词 组 生成 、 汉 语 语法 树 生成 、 汉 语 外 语 转 
换 及 外 语 生成 等 功能 。 由 于 其 中 的 每 一 个 模块 都 可 以 单独 使 用 ， 所 以 ， 
Sino ”Trans 还 能 为 自然 语言 理解 研究 、 基 于 语词 的 语言 学 研究 提供 条 
件 ， 为 汉语 教学 提供 帮助 。 





Sino ”Trans 根据 我 国 背 名 语言 学 家 歼 锅 牛 先 后 的 句 本 位 学 说 ， 提 出 
了 汉语 完全 语法 树 (LTree) 来 统一 表达 所 有 可 能 出 现 的 汉语 陈述 名 
型 ， 并 建立 了 属性 制约 原则 和 属性 制约 文法 ， 因 此 ， 研 究 者 束 有 可 能 i 
一 步 通盘 地 来 研究 汉语 的 句法 ， 不 必 再 像 传统 的 汉语 语法 研究 那样 只 局 
限于 使 用 枚 举例 句 的 方法 来 概括 语言 规律 。 完 全 语法 树 还 清楚 地 表示 了 


句子 的 上 自动 分 析 和 生成 过 程 ， 明 确 在 句子 内 可 以 递归 的 部 分 和 递归 的 内 
容 ， 为 在 理论 上 深入 研究 汉语 理解 的 实际 过 程 提供 了 线索 。 





汉 英 机 器 翻译 系统 的 规则 库 现 有 基本 语法 规则 1 000 余 条 ， 转 换 规 
则 200 余 条 ， 基 本 词典 40 000 条 ， 专 业 词 典 两 部 : 一 部 是 舰艇 专业 词 
典 ， 有 9 312 条 ， 一 部 是 火箭 炮 专业 词典 ， 有 33 773 条 ， 系 统 具 有 良好 的 
用 户 界面 ， 可 支持 任何 编辑 软件 ， 进 行 译 前 、 译 后 编辑 ， 系 统 还 具有 开 
放 性 ， 用 户 可 根据 自己 的 实际 需要 ， 自 行 添加 生词 的 技术 指标 。 翻 译 速 
度 每 小 时 20 000 汉 字 。 





汉 日 机 器 翻译 子 系统 现 有 基本 词典 4 000 和 条， 动词 辞典 2 000 条 ， 计 
算 机 专业 词典 22 000 条 ， 还 有 待 于 进一步 完善 。 


此 外 ， 哈 尔 滨 工业 大 学 计算 机 系 的 汉 英 机 器 翻译 系统 CEMT， 东 北 
工学 院 计 算 机 科学 与 工程 系 的 汉 英 机 器 翻译 系统 CETRANS 也 正在 同 实 
用 化 的 方向 努力 。 


近年 来 ， 随 着 计算 机 技术 的 进步 ， 己 经 将 机 器 翻译 系统 制 成 袖珍 的 
翻译 机 。 例 如 ， 由 香港 权 智 有 限 公 司 推出 的 人 工 智 能 全 名 英汉 袖 珍 翻译 
机 “ 快 译 通 滤 C863B， 由 香港 伟 易 达 电脑 国际 有 限 公 司 推出 的 全 名 英汉 
翻译 袖珍 翻译 机 “ 易 达 通 ”， 都 突破 了 单词 解释 和 例句 预 设 的 限制 ， 能 够 
进行 整 句 的 翻译 ， 把 自选 的 英文 句子 和 短语 翻译 成 参考 性 极 高 的 中 文句 
子 和 短语 。 这 样 的 袖珍 翻译 机 ， 与 袖珍 电子 词典 一 般 大 小 ， 造 型 优美 ， 
小 巧 多 姿 ， 如 快 译 通 EC863B， 连 电池 在 内 重量 才 230 克 ， 携 带 十 分 方 
便 。 这 是 机 器 翻译 系统 商品 化 的 可 喜 收 获 。 








从 实用 化 商品 化 的 角度 来 看 ， 机 器 翻译 确实 有 了 相当 的 进步 ， 研 究 
者 们 对 语法 和 词典 都 下 了 不 少 工 夫 ， 研 究 的 规模 也 扩充 了 ， 因 而 翻译 时 





未 登录 的 词 减少 了 ， 句 子 分 析 的 成 功率 也 提高 了 ， 多 义 词 选择 的 准确 性 
和 歧义 判别 的 能 力也 都 进一步 得 到 了 改进 。 但 是 ， 对 于 一 些 复 杂 的 句子 
的 分 析 依 然 很 困难 ， 往 往 遭 致 失败 ， 多 义 词 和 监 义 问题 尚未 找到 切实 有 
效 的 解决 办 法 ， 有 时 免不了 要 进行 人 工 干 预 。 不 过 ， 从 总 体 上 看 来 ， 由 
于 机 需 翻 译 的 速度 比 单纯 的 人 工 翻 译 快 得 多 ， 在 讲求 效率 的 信息 化 时 
代 ， 机 器 翻译 的 市 场 潜力 仍然 是 很 大 的 。 例 如 ， 权 智 集 团 “ 快 译 通 ” 丙 标 
的 公平 市 场 价值 ， 经 美国 评估 公司 评估 为 一 亿 三 干 万 港元 。 这 样 大 的 市 
场 潜力 对 于 机 器 翻译 系统 的 进一步 开 友 ， 有 大 相 当 大 的 吸引 力 。 

















基于 规则 的 机 器 翻译 系统 面 对 的 主要 问题 是 天 于 自然 语言 中 词汇 和 
结构 的 歧义 问题 ， 这 种 卜 义 既 存 在 于 一 种 语言 的 内 部 〈 单 语 歧 义 )， 也 
存在 于 不 同 的 语言 之 间 《〈 双 语 歧义 ) 。 


在 机 器 翻译 中 ， 任 何 单 语 歧义 都 可 能 暗含 这 潜在 的 困难 ， 对 于 源 语 
言 中 一 个 有 此 义 的 单词 ， 在 目标 语言 中 ， 也 许可 能 存在 一 个 以 上 的 翻译 
等 价 物 。 例 如 ， 英 语 的 cry 对 应 于 法 语 的 pleurer( 句 ) 或 crier 〈 叫 喊 ) ; 
法 语 的 voler 对 应 于 英语 的 fly( 飞 ) 或 steal Cf) 。 


在 机 器 翻译 中 ， 同 样 须 要 解决 兼 类 词 问 题 。 所 谓 兼 类 词 也 就 是 词类 
的 歧义 ， 例 如 ， 英 语 light 可 为 名 词 、 形 容 词 或 动词 ， 翻 译 时 需要 在 法 语 
lumiere 〈“ 光 线 ”， 名 词 ) ，clair 〈“ 亮 ”， 形 容 词 ) 或 allumer (“ 照 亮 ”， 
动词 ) 等 不 同 的 词类 之 间 进 行 选择 ;有 英语 的 face 可 为 名 词 和 动词 ， 翻 译 
时 需要 在 法 语 的 visage 〈“ 脸 ”， 名 词 ) 或 confronter “MIX”, zii Zz 
间 进 行 选 择 。 

如 果 一 个 词 或 短语 能 够 潜在 地 修饰 一 个 以 上 的 句法 成 分 ， 就 会 出 现 
单 语 的 结构 歧义 ， 在 机 器 翻译 翻译 中 ， 可 以 分 别 翻译 为 两 中 不 同 的 结 
构 。 在 英语 的 “old men and women” 中 ， 形 容 词 o0ld 可 以 只 修饰 men， 也 可 





以 修饰 men and women， 翻 译 为 法 语 时 ， 就 可 以 分 别 翻译 为 vieux et 
femmes (老年 的 男人 和 女人 ) 或 vieux et vieilles (老年 的 男人 和 老年 的 
女人 ) 两 种 不 同 的 结构 。 





在 英语 中 ， 介 词 短语 能 够 修饰 几乎 所 有 在 它 前 面 的 动词 和 名 词 短 


The car was driven by the teacher at high speed. 








就 存在 结构 歧义 ， 它 有 两 个 意思 : 一 个 意思 是 “老师 飞速 地 开 着 
Æ” (at high speed 修 饰 动词 was driven) ， 男 一 个 意思 是 “高 速度 的 老师 


JF "E" Cat high speed 修 饰 名 词 teacher) 。 


HER Tay SC AG PB EE ERER. BUN, ZETA) “He 
saw her shaking hands” 中 ，shaking 可 以 是 形容 词 〈 句 子 的 意思 是 “他 看 见 
她 的 颤 拌 的 手 *”) ， 也 可 以 是 动 名 词 的 动词 (句子 的 意思 是 “他 看 见 她 颤 
fae’) ， 兼 类 词 shaking 在 结构 上 可 以 分 别 做 定语 (意思 为 “ 颤 拌 
IN?) 或 动 名 词 短语 中 的 谓语 (意思 为 “ 颤 拌 着 ”) ， 兼 类 词 收 义 的 同时 
还 和 带 有 结构 歧义 。 











双语 歧义 是 源 语 言 和 目标 语言 之 间 彼 此 对 应 时 出 现 的 歧义 ， 这 种 歧 
义 主要 发 生 在 某 个 意义 在 目标 语言 中 没有 区 分 而 在 源 语言 有 区 分 的 时 
候 。 例 如 ， 在 英语 中 ，river (河流 ) 没有 进一步 的 区 分 ， 而 在 法 语 中 则 
进一步 区 分 为 riviere ( 河 ) 或 fleuve GIL) ， 在 德语 中 进一步 区 分 为 
Fluss (河流 ) 或 Sttrom (UL) ; FER, eat OZ) 没有 进一步 区 
分 ， 而 在 德语 中 则 进一步 区 分 为 essen〈 LA] 吃 ) fressen C [动物 ] 
吃 ) ; FEI, wall Ge) 没有 进一步 区 分 ， 而 在 法 语 中 则 进一步 区 
分 为 mur CHE) 或 paroi〈 隔 墙 ) ， 在 德语 中 则 进一步 区 分 为 











Wand (4) , Mauer (围墙 ) 或 Wall (E4) ; 在 英语 中 ，blue GEE 
的 ) 没有 进一步 区 分 ， 在 俄语 中 ， 则 进一步 区 分 为 ca 次 〈 深 蓝 色 的 ) 
Mronypon (RHEW) 。 








有 了 时， 这 种 双语 皮 义 使 得 词义 之 间 对 应 关系 变 得 非常 之 复杂 。 图 
11.2 摘 述 了 英语 中 的 单词 leg CHE) , foot Ce), paw OCTO 与 法 语 
中 的 单词 jambe (BR) , pied CHI) , patte (MF), etape Cfg S HE) 
之 间 的 交叉 对 应 关系 。 





ANIMAL AW 
etape patte 
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图 11.2 ”英语 单词 与 法 语 单词 之 间 复 杂 的 对 应 关系 











例如 ， 法 语 的 pied 可 以 用 于 指 人 (HUMAN) 的 “ 脚 ?”， 这 时 ， 它 与 
英语 的 foot 相 对 应 ; 法 语 的 pied 也 可 以 用 于 指 椅子 CCHAIR) 的“ 脚 ”， 
这 时 ， 它 与 英语 的 leg 相 对 应 ;而 英语 的 foot 还 可 以 指 鸟 BIRD) 的 “ 爪 
子 ”， 这 时 ， 生 与 法 语 的 patte 相 对 应 。 英 语 的 leg 涵 义 复杂 ， 它 除了 与 法 
语 的 pied 对 应 之 外 ， 还 可 以 指 动物 CANIAMLO 的 “ 脚 ”， 这 时 ， 它 和 
foot 一 起 ， 又 与 法 语 的 patte 相 对 应 ; 英语 的 leg 还 可 以 指 人 类 
(HUMAN) 的 “ 腿 ”， 这 时 ， 它 与 法 语 的 jambe 相 对 应 ; 此外， 英语 的 
leg 还 可 以 指 旅行 (JOURNEY) 中 的 一 段 “ 旅 程 "， 这 时 ， 它 与 法 语 的 
etape 相 对 应 。 英 语 和 法 语 的 涵义 之 间 形 成 的 交叉 对 应 关系 是 非常 复杂 
的 。 这 是 在 词汇 方面 的 双语 歧义 现象 。 








由 于 存在 这 种 极为 复杂 的 双语 监 义 现象 ， 在 机 露 翻 译 中 ， 单 词 的 翻 





译 就 会 出 现 一 对 多 的 情况 ， 需 要 进行 排 歧 。 





有 时 ， 在 双语 词汇 对 应 时 ， 甚 至 在 其 中 的 一 种 语言 中 ， 还 会 出 现 词 
汇 对 应 不 上 的 现象 ， 叫 做 词汇 间 际 (lexical gap) WA, pla, We 
的 “ 孝 ”， 在 英语 中 就 没有 完全 等 价 的 蛙 词 与 之 对 应 ， 可 以 勉强 翻译 
为 “show filial obedience". JXi&fHJ"privacy" (state of being alone or 
undisturbed) ENE PIA ce ZS ERR] Ze, a DAL SR 
翻译 为 “独处 或 不 受 干扰 的 状态 ”。 由 于 难以 找到 完全 等 价 的 单词 ， 机 器 
在 处 理 词汇 间 隐 问题 时 ， 往 往 会 陷入 举 棋 不 定 的 困境 ， 会 给 机 器 翻译 造 
成 很 大 的 困难 。 

在 机 器 翻译 中 ， 双 语 结构 的 不 同 可 以 进行 一 般 性 的 处 理 。 例 如 ， 在 


英语 中 形容 词 处 于 名 词 之 前 ， 但 法 语 中 很 多 的 形容 词 则 处 于 名 词 ， 在 机 
侣 翻译 时 ， 我 们 只 要 写 出 转换 的 规则 就 行 了 。 





但 是 ， 有 时 这 种 不 同 需 要 在 特殊 的 结构 中 进行 具体 的 分 析 ， 例 如 ， 
翻译 英语 动词 like (she likes to play tennis) 为 德语 副词 gern (sie spielt 
gern Tennis) ， 只 有 在 这 一 类 特定 的 句 型 中 才 可 以 进行 。 有 了 时， 这 种 不 
同 可 以 通过 特殊 的 词汇 选择 来 决定 ， 例 如 ， 瑞 语 简单 动词 trust， 翻 译 为 


法 语 是 一 个 复杂 的 短语 (avoir confiance a) 。 








两 种 语言 词汇 选择 的 不 同 往往 伴随 着 结构 上 的 差异 。 例 如 ， 在 法 语 
和 德语 的 翻译 中 ， 如 果 法 语 使 用 connaitre 〈 相 应 的 德语 词 为 kennen) , 
那么 往往 选择 名 词 短 语 做 宾语 的 结构 ， 例 如 ， 法 语 “je connais 
lhomme”( 我 认识 这 个 人 )〉 ， 德 语 为 “ich kenne den Mann"; 如 果 法 语 使 
用 savoir( 相 应 的 德语 词尾 wissen) ， 那 么 ， 往 往 选 择 从 句 做 宾语 的 结 
构 ， 例 如 ， 法 语 “je sais ce qu'il s'appelle" CEP», WEN 
ich weiss wie er heisst， 这 时 ， 法 语 要 使 用 ce gue 在 这 个 句子 中 是 ce 





qu) 引入 宾语 从 句 计 sappelle， 德 语 要 使 用 wie 引 入 宾语 从 句 er heisst. 


有 时 需要 使 用 非 语 言 的 常识 性 知识 来 进行 层 义 消解 。 例 如 ， 代 词 的 
先行 语 的 判断 束 往 往 需 要 关于 事件 和 情景 的 非 语言 知识 。 














在 “The soldiers killed the women, they were buried next day” (EF 
杀 了 那些 妇女 ， 她 们 明天 就 要 被 埋 了 ) AAFP, fW*they"—3;&^^ 
是 指 “ 士 兵 ” 而 是 指 “ 妇 女 "， 因 为 我 们 知道 “killing” 上 暗示 着 “death”， 
而 “death” 通 常 伴随 着 “burial*， 所 以 ， 我 们 可 以 判断 ，were buried 的 主语 
应 当 是 被 killed 的 women， 而 不 是 soldiers。 


这 样 的 判断 叫做 “ 回 指 消解 ”(anaphora resolution) 。 回 指 消 解 对 机 
器 翻译 非常 重要 。 在 有 标记 了 代词 的 性 的 语言 翻译 中 ， 在 具有 和 零 形 回 指 
结构 的 语言 中 ， 机 器 翻译 时 需要 在 目标 语言 中 插入 代词 ， 回 指 消解 就 显 
得 尤其 重要 。 








更 大 的 困难 存在 于 ， 机 器 翻译 系统 仅 限 于 把 句子 作为 翻译 的 单位 ， 
而 回 指 现象 则 经 常 超越 出 句子 的 范围 。 尤 其 是 在 机 器 翻译 系统 翻译 对 话 
文本 时 ， 这 个 问题 更 加 突出 ， 因 为 对 话 中 经 常 使 用 回 指 。 另 外 ， 回 指 消 
解 本 喘 就 是 很 复杂 的 过 程 ， 当 机 器 翻译 过 程 中 出 现 对 话 ， 源 语言 《说 话 
者 或 作者 ) 使 用 了 回 指 ， 这 时 ， 这 样 的 回 指 不 只 是 听 者 〈 译 者 或 翻译 系 
统 ) 需要 进行 识别 ， 而 且 在 语言 编码 中 还 要 进行 指称 的 表达 。 例 如 ， 
elle 在 法 语 中 指 代 阴性 语法 词 ， 翻 译 为 英语 时 ， 在 下 面 的 例句 中 ， 应 翻 
译 为 it， 而 不 是 she。 




















法 语 : L'eau est claire mais elle est froide.〈 水 虽 清 澈 ， 但 是 很 
io ) 


Hi: The water is clear but it (*she) is cold. 


在 下 面 的 例子 (a)〉 中 ， 如 果 知 道 是 录像 机 (recorder) 中 的 录像 带 
(video tape) 需要 倒 带 ， 很 容易 地 就 可 以 确定 ， 其 中 的 代词 it 指 代 的 先 
行 词 是 录像 带 (video tape) . MEPIS (b〉 中 ，it 束 指 代 的 是 录像 机 


(recorder) 。 


a. Insert the video tape into the recorder, rewinding it if necessary. (把 录 
像 带 插 到 录像 机 中 ， 必 要 时 倒 带 。) 

b. Insert the video tape into the recorder, after making sure that it is turned 
on.〔 在 确认 录像 机 是 否 已 经 打开 之 后 ， 把 录像 带 插 到 录像 机 
中 。) 





有 时 代词 的 指 代 是 隐藏 在 文本 中 的 ， 我 们 需要 先 了 解 潜 在 的 语 境 ， 
才 有 可 能 确定 这 样 的 指 代 。 例 如 ， 在 下 面 的 句子 中 ，it 指 代 的 是 这 个 句 
子 中 没有 提 到 的 食品 ， 而 不 是 前 面 所 到 的 任何 事物 。 





We went to a restaurant last night. It was delicious.〈 上 昨 晚 我 们 去 
一 个 饭店 ， 食 品 的 味道 鲜美 。 ) 


为 了 翻译 这 样 的 句子 ， 正 确 地 处 理 句 子 中 i 的 指 代 关 系 ， 机 器 翻译 
需要 知道 “在 饭店 中 一 定 存 在 着 食品 ”这 样 的 非 语言 学 的 常识 。 








这 些 事实 说 明 ， 我 们 不 仅 应 该 丰富 机 器 翻译 系统 的 语言 学 知识 ， 而 
且 应 该 为 机 器 翻译 系统 提供 更 多 的 非 语言 学 的 第 识 。 所 以 ， 在 基于 规则 
的 机 需 翻 译 系统 中 ， 规 则 不 仅 包 括 语言 学 规则 ， 而 且 还 包括 非 语言 学 的 
规则 。 





在 基于 规则 的 机 器 翻译 中 ， 这 些 复杂 的 问题 正在 逐步 地 得 到 解决 ， 
取得 了 令 人 或 舞 的 成 绩 ， 一 些 基 于 规则 的 机 器 翻译 系统 已 经 实用 化 了 。 





Pete — 


第 二 节 AT ee DL a VE 
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于 语料库 的 方法 。 


基于 语料库 的 机 器 翻译 方法 有 可 以 进一步 分 为 两 种 : 一 种 是 基于 统 
计 的 机 器 翻 译 方法 ， 一 种 是 基于 实例 的 机 器 翻 译 方法 。 这 两 种 方法 都 使 
用 语料库 作为 翻译 知识 的 来 源 ， 所 以 可 以 统称 为 基于 语料库 的 机 器 翻译 
方法 。 


这 两 种 方法 的 区 别 在 于 : 


e 在 基于 统计 的 机 器 翻译 方法 中 ， 知 识 的 表示 是 统计 数据 ， 而 不 是 
语料库 本 喘 ;， 翻译 知识 的 获取 是 在 翻译 之 前 完成 ， 在 翻译 的 过 程 中 一 般 
不 再 使 用 语料库 。 





e 在 基于 实例 的 机 器 翻译 方法 中 ， 双 语 语料库 本 喘 就 是 翻译 知识 的 
一 种 表现 形式 〈 不 一 定 是 唯一 的 ) ， 翻 译 知识 的 获取 在 翻译 之 前 没有 全 
部 完成 ， 在 翻译 的 过 程 中 还 要 但 询 并 利用 语料库 。 











1993 年 7 月 在 日 本 神户 召开 的 第 四 届 机 器 翻译 高 层 会 议 (MT 
Summit IV) 上， 英国 车 名 学 者 哈 饮 斯 (J. Hutchins) 在 他 的 特约 报告 中 
指出 ， 自 1989 年 以 来 ， 机 器 翻译 的 发 展 进 入 了 一 个 新 纪元 。 这 个 新 纪元 
的 重要 标志 是 ， 在 基于 规则 的 技术 中 引入 了 语料库 方法 ， 其 中 包括 统计 
方法 ， 基 于 实例 的 方法 ， 通 过 语 料 加 工 手 段 使 语料库 转化 为 语言 知识 库 
的 方法 ， 等 等 。 这 种 建立 在 大 规模 真实 文本 处 理 基础 上 的 机 器 翻译 ， 是 
机 器 翻译 研究 史上 的 一 场 革 命 ， 它 将 会 把 自然 语言 的 计算 机 处 理 推 癌 一 











个 壬 新 的 阶段 。 


现在 我 们 已 经 进入 21 世 纪 ， 语 料 库 方法 已 经 渗透 到 了 机 器 翻译 研究 
的 各 个 方面 ， 一 些 基于 语料库 的 机 器 翻译 系统 如 雨 后 春 算 般 地 建立 起 
来 ， 有 的 系统 把 基于 语料库 的 方法 和 基于 规则 的 方法 巧妙 地 结合 起 来 ， 
取得 了 可 豆 的 成 绩 。 


2000 年 ， 在 约翰 : 霍 普 金 斯 大 学 (Johns Hopkins University) 的 暑假 
机 器 翻译 讨论 班 CWorkshop) 上， 来 自 南 加 州 大 学 、 罗 切 斯 特大 学 、 约 
翰 : 霍 普 金 斯 大 学 、 施 乐 公 司 、 宾 夕 法 尼 亚 州 大 学 、 斯 坦 福 大 学 等 学 校 
的 研究 人 员 ， 对 于 基于 统计 的 机 器 翻译 进行 了 讨论 ， 以 年 轻 的 博士 研究 
^E (Franz Josef Och) 为 主 的 13 位 科学 家 写 了 一 个 总 结 报告 〈Final 
Report) ， 报 告 的 题目 是 《统计 机 器 翻译 的 句法 》 (“Syntax for 
Statistical Machine Translation”) ， 这 个 报告 提出 了 把 基于 规则 的 机 融 翻 
译 方法 和 基于 统计 的 机 器 翻译 方法 结合 起 来 的 有 效 途 径 。 


奥 赫 在 国际 计算 语言 学 2002 年 的 会 议 〈ACL2002) 上 发 表 论文 ， 题 
Hæ: 《统计 机 器 翻译 的 分 辨 训练 与 最 大 燃 模 型 》 (Discriminative 
Training and Maximum Entropy Models for Statistical Machine Translation 
) ,进一步 提出 统计 机 此 翻译 的 系统 性 方法 ， 他 的 这 篇 论文 获 ACL2002 


大 会 最 佳 论 文 交 。 
目前 ， 统 计 机 需 翻 译 己 经 成 为 机 露 翻 译 研 究 的 主流 。 


根据 Google 的 调查 ， 统 计 机 器 翻 译 论文 发 表 的 情况 如 图 11.3 所 未 : 
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图 11.3 ”统计 机 器 翻译 论文 增长 情况 


可 以 看 出 ， 统 计 机 器 翻译 的 论文 是 成 线性 增长 的 ， 其 增长 速度 越 来 


根据 美国 NIST (National Institute of Standardization & Technology) 
ZAZA VP LR AH PEPE MU, Se ERT Hl A CV on 83 VE AB 250 A RT dr 
伯 语 -英语 机 器 翻译 系统 的 BLEU 指 标 出 如 下 : 
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图 11.4 统计 机 器 翻译 系统 的 BLEU 指 标 逐 年 提高 


可 以 看 出 ， 这 些 统计 机 需 翻 译 系统 的 翻译 质量 正在 逐年 提高 。 


统计 机 器 翻译 的 质量 与 语言 模型 的 规模 有 密切 关系 。 机 器 翻译 的 研 
完 者 们 兴奋 地 发 现 ， 随 着 语 言 模型 训练 数据 的 增 大 ， 机 顺 翻 译 的 译文 质 
量 相应 提高 包 。 如 下 页 的 图 11.5 所 示 。 





Impact on size of language model training data (in words) on quality of 
Arabic-English statistical machine translation system 
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2003 年 7 月 ， 在 美国 马里 兰州 巴尔 的 摩 CBaltimore, Maryland) 由 美 
国 商业 部 国家 标准 与 技术 研究 所 NIST/TIDES (National Institute of 
Standards and Technology) 主持 的 评比 中 ， 奥 赫 获 最 好 成 绩 ， 他 使 用 统 
计 方 法 ， 在 很 短 的 时 间 之 内 融 构 造 了 阿拉 伯 语 和 汉语 到 英语 的 奋 干 个 机 
器 翻译 系统 。 伟 大 的 希 脐 科 学 家 阿 基 米 德 CArchimedes) 说 过 : “只 要 
给 我 一 个 支点 ， 我 就 可 以 移动 地 球 。” (“Give me a place to stand on, and 
I will move the world.”) 而 现在 奥 赫 也 模仿 着 阿 基 米 德 说 :“ 只 要 给 我 充 
分 的 并 行 语言 数据 ， 那 么 ， 对 于 任何 的 两 种 语言 ， 我 就 可 以 在 几 小 时 之 
内 给 你 构造 出 一 个 机 器 翻译 系统 。” (“Give me enough parallel data, and 
you can have translation system for any two languages in a matter of 


hours.") 这 反映 了 新 一 代 的 机 右 翻译 研究 者 朝气 莲 动 的 探索 精神 和 继 往 














开 来 的 聚 情 壮志 。 看 来 ， 奥 赫 似 乎 已 经 找到 了 机 器 翻译 的 有 效 方法 ， 至 
少 按照 他 的 路 子 走 下 去 ， 也 许 有 可 能 开创 出 机 器 翻译 研究 的 一 片 新 天 
地 ， 使 我 们 在 探索 真理 的 曲折 道路 上 看 到 了 次 眼 的 曙光。 过 去 我 们 研制 
一 个 机 器 翻译 系统 往往 需要 几 年 的 时 间 ， 而 现在 采用 奥 赫 的 方法 构造 机 
器 翻译 系统 只 要 几 个 小 时 就 可 以 了 ， 研 制 机 器 翻译 系统 的 速度 已 经 大 大 
地 提高 





早 在 1947 年 ， 韦 弗 在 他 的 以 《翻译 》 为 题 的 备 筷 录 中 ， 就 提出 了 使 
用 解读 密码 的 方法 来 进行 机 器 翻译 ， 这 种 所 谓 “ 解 读 密 码 ” 的 方法 实质 上 
就 是 一 种 统计 的 方法 ， 他 是 想 用 基于 统计 的 方法 来 解决 机 器 翻 译 问 题 。 





但 是 ， 由 于 当时 尚 缺 乏 高 性 能 的 计算 机 和 联机 语 料 Ccorpus on 
line〉， 米 用 基于 统计 的 机 器 翻译 在 技术 上 还 不 成 熟 。 韦 弗 的 这 种 方法 
是 难以 付 诸 实现 的 。 现 在 ， 这 种 局 面 已 经 大 大 改变 了 ， 计 算 机 在 速度 和 
容量 上 都 有 了 大 幅度 的 提高 ， 也 有 了 大 量 的 联机 语 料 可 供 统计 使 用 ， 因 
此 ， 在 20 世 纪 90 年 代 ， 基 于 统计 的 机 器 翻译 又 兴盛 起 来 。 





在 韦 弗 思想 的 基础 上 ，IBM 公 司 的 布 劳 罗 (P.F. Brown) 等 人 提出 
了 统计 机 器 翻译 的 数学 模型 。 


基于 统计 的 机 器 翻译 把 机 器 翻译 问题 看 成 是 一 个 噪声 信道 问题 ， 如 
图 11.6 所 示 : 
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翻译 ( 解码 ) 








目标 语言 源 语言 
图 11.6 ”噪声 信道 模型 





可 以 这 样 来 看 机 器 翻译 : 一 种 语言 由 于 经 过 了 一 个 噪音 信道 而 发 
生 了 扭曲 变形 ， 在 信道 的 男 一 端 呈 现 为 男 一 种 语言 T， 翻 译 问题 实际 上 
就 是 如 何 根据 观察 到 的 语言 T， 人 恢复 最 为 可 能 的 语言 S。 语 言 $ 是 信道 意 
义 上 的 输入 ， 在 翻译 意义 上 就 是 目标 语言 ， 语 言 T 是 信道 意义 上 的 输 
出 ， 在 翻译 意义 上 惑 是 源 语 言 。 从 这 种 观点 看 来 ， 一 种 语言 中 的 任何 一 
个 句子 都 有 可 能 是 另外 一 种 语言 中 的 某 几 个 句子 的 译文 ， 只 是 这 些 句 子 
的 可 能 性 各 不 相同 ， 机 器 翻译 就 是 要 找 出 其 中 可 能 性 最 大 的 句子 ， 也 就 
是 对 所 有 可 能 的 目标 语言 S 计 算出 概率 最 大 的 一 个 作为 源 语言 工 的 译文 。 
由 于 S 的 数量 巨大 ， 可 以 采用 栈 式 搜索 (stack search) 的 方法 。 栈 式 搜 
索 的 主要 数据 结构 是 表 结 构 ， 表 结构 中 存放 着 当前 最 有 希望 的 对 应 于 T 
的 9， 算法 不 断 循 环 ， 每 次 循环 扩充 一 些 最 有 希望 的 结果 ， 直 到 表 中 包 
含 一 个 得 分 明显 高 于 其 他 结果 的 S 时 结束 。 这 种 栈 式 搜索 不 能 保证 得 到 
最 优 的 结果 ， 它 会 导致 错误 的 翻译 ， 因 而 只 是 一 种 次 优化 算法 。 


















































可 见 ， 统 计 机 器 翻译 系统 的 任务 就 是 在 所 有 可 能 的 目标 语言 (翻译 
意义 上 的 目标 语言 ， 也 就 是 噪声 信道 模型 意义 上 的 源 语言 ) 的 句子 中 寻 
找 概 紊 最 大 的 那个 句子 作为 翻译 结果 。 其 概率 值 可 以 使 用 贝 叶 斯 公式 














(Beyes formula) 得 到 《下 面 公 式 中 的 T 是 在 翻译 意义 上 的 目标 语言 ，S 
是 在 翻译 意义 上 的 源 语 言 ) : 


PT IP SIT) 


由 于 等 式 右边 的 分 母 P(S) STAG, Alt, RP CTS) 的 最 大 值 
相当 于 寻找 一 个 T， 使 得 等 式 右 边 分 子 的 两 项 乘积 P CD P (ST) AR 
大 ， 也 就 是 说 : 

T-argmax P (T) P (S|T) 

这 个 公式 ， 叫 做 统计 机 器 翻译 的 基本 公式 。 其 中 ，P《〈T) 是 目标 语 

言 的 语言 模型 ，P《〈SIT) 是 给 定 I 的 情况 下 S 的 翻译 模型 。 根 据 语 言 模型 


和 翻译 模型 ， 求 解 在 给 定 源 语言 句子 $ 的 情况 下 最 接近 真实 的 目标 语言 
句子 T 的 过 程 ， 相 当 品 音信 道 模 型 中 解码 的 过 程 。 














统计 机 器 翻译 翻译 系统 要 解雇 三 个 问题 : 


1， 佑 计 语言 模型 概率 PT) ， 也 就 是 估计 目标 语言 译文 CT) 的 流 
ae 











2. 估计 翻 译 概率 P〈SIT) , Hitter Aiea CD 对 于 源 语言 
(S) 的 忠实 度 ; 





3. 设计 有 效 快速 的 搜索 算法 来 求解 IT， 使 得 PT) P CTIS) 最 大 。 


我 国 着 名 翻译 家 严复 提出 了 翻译 的 三 个 标 
准 :“ 信 ”“ 达 “和 雅 "。“ 信 ” 束 是 译文 懂得 忠实 度 ,“ 达 ”就 是 译文 的 流畅 





BI. “ 雅 ” 束 是 译文 的 优雅 度 。 和 鲁迅 先生 把 严复 的 这 三 条 标准 简化 为 两 
4: BE”, EU. "B HIbTGEGEHE, dE 

P (SIT) ; “Wi? AAT Vite, EEP CIO ; WRP CT) P (SIT) 的 
值 最 大 ， 译 文 质量 就 最 好 。 所 以 ， 统 计 机 器 翻译 的 基本 公式 反映 了 人 们 
对 于 译文 的 基本 要 求 ， 是 符合 我 们 对 于 译文 质量 的 直觉 的 。 

















比较 著名 的 基于 统计 的 机 器 翻译 系统 是 [BM 公司 的 Candide 系 统 。 


IBM 公 司 布 劳 恩 等 研究 者 基于 统计 机 器 翻译 的 思想 ， 以 英法 双语 对 
照 加 拿 大 议会 辩论 记录 作为 双语 语料库 ， 开 发 了 一 个 英法 机 器 翻译 系统 
Candide。 


表 11.1 Candide 系 统 与 Systran 系 统 比 较 


Fluency Adequacy Time Ratio 





1992 1993 1992 1993 





Systran i a . 686 . 743 
Candide 


'Transman 




















Manual 


表 11.1 是 ARPA (美国 国防 部 高 级 研究 计划 署 ) 对 几 个 机 器 翻译 系 
统 的 测试 结果 ， 其 中 第 一 行 是 著名 的 基于 规则 的 机 器 翻译 系统 Systran 的 
翻译 结果 ， 第 二 行 是 Candide 系 统 的 翻译 结果 ， 第 三 行 是 Candide 系 统 加 
人 工 校 对 的 结果 ， 第 四 行 是 纯 人 工 翻译 的 结 





评价 指标 有 两 个 : Fluency 流 利 程度 ) 和 Adequacy( 适 当 程 度 ， 
译文 对 于 原文 的 忠实 程度 ) 。Transman 是 IBM 研 制 的 一 个 译 后 编辑 工 


具 。Time Ratio 显 示 的 是 用 Candide 加 Transman 人 工 校 对 所 用 的 时 间 和 纯 
手工 翻译 所 用 的 时 间 的 比例 。 从 指标 上 看 ，Candide 已 经 超越 了 采用 传 
统 的 基于 规则 方法 的 机 器 翻译 系统 Systran。 


据 报 道 ，Candide 机 器 翻译 系统 包括 三 个 冲 
一 一 瑞 语 的 三 元 语法 模型 ; 


一 一 法 语 的 三 元 语法 模型 ; 











一 一 英语 和 法 语 的 部 分 对 齐 句子 的 高 质量 的 对 应 模型 。 


ERE Candide 请 了 一 些 语言 学 家 来 帮助 他 们 做 形态 
分 析 表 、 语 义 标注 、 中 间 表 达 式 的 转换 ，Candide 也 使 用 了 词典 。 可 
见 ， 这 个 系统 还 不 能 说 是 纯 统计 的 。 


IBM 的 这 个 统计 机 需 翻 译 系统 后 来 由 于 外 部 和 内 部 的 财政 文 持 都 撤 
走 了 上 ， 因 此 ， 这 个 系统 的 工作 只 坚持 到 1995 年 。 


可 见 ， 统 计 方 法 是 令 人 或 舞 的 ， 可 是 它 并 不 能 解决 所 有 困难 的 问 


威 尔 元 斯 在 批评 Candide 系 统 时 ii “他 们 在 系统 中 引入 符号 结构 
就 说 明了 ， 纯 统计 的 假设 已 经 失败 了 。” 这 段 话 的 语文 原文 


是 : “Incorporating symbolic structures shows the pure statistics hypothesis 


has failed.” 可 见 ， 机 器 翻译 专家 们 对 于 统计 机 器 翻译 还 没有 完全 认同 。 


除了 IMB 公 司 之 外 ， 美 国 还 有 很 多 公司 在 进行 统计 机 器 翻译 的 开发 
研究 。 


2002 年 1 月 ， 在 美国 成 立 了 Language Weaver 公 司 ， 专 门 研制 统计 机 
器 翻译 软件 (Statistical Machine Translation Software， 人 简称 SMTS) , 9& 
赫 加 盟 Language Weaver 公 司 ， 成 为 该 公司 的 顾问 。Language Weaver 公 
司 是 世界 上 第 一 个 把 统计 机 器 翻译 软件 商品 化 的 公司 。 他 们 使 用 机 器 上 自 
动 学 习 的 技术 ， 从 翻译 存储 资料 (translation memories) 、 翻 译文 档 

(translated archives) 、 词 典 (dictionaries & glossaries) 、 因 特 网 
(Internet) 以 及 翻译 人 员 (human translators) 那里 获取 大 量 的 语言 数 
据 ， 在 这 个 过 程 中 ， 他 们 对 这 些 语言 数据 进行 各 种 预 处 理 (pre- 
processing) ， 包 括 文本 格式 过 滤 (format filtering) 、 光 学 自动 阅读 和 
Hi (ScantOCR) ~ LFR (transcription) 、 文 本 对 齐 〈document 
alignment) 、 文 本 片段 对 齐 (segment alignment) 等 。 接 着 ， 把 经 过 预 
处 理 的 语言 数据 ， 在 句子 一 级 进行 源 语言 和 目标 语言 的 对 齐 ， 形 成 双语 
并 行 语料库 (parallel corpus) 。 然 后 使 用 该 公司 目 己 开发 的 %LW 学 习 软 
ft" (Language Weaver Learner， 人 简称 LW Learner) ， 对 双语 并 行 语料库 
进行 处 理 ， 从 语料库 中 抽取 概率 翻译 词典 、 概 率 翻译 模板 以 及 概率 翻译 
规则 等 语言 信息 ， 这 些 抽 取出 来 的 语言 信息 ， 统 称 为 翻译 参数 
(translation parameters) ， 这 样 的 翻译 参数 实际 上 就 是 概率 化 的 语言 知 
识 ， 经 过 上 述 的 处 理 ， 语 言 数 据 就 变 成 了 概率 化 的 语言 知识 。 翻 译 参数 
是 该 公司 翻译 软件 的 重要 组 成 部 分 。 为 了 处 理 这 些 翻 译 参数 ， 该 公司 还 
开发 了 一 个 统计 翻译 堪 ， 叫 做 解码 器 (Decoder) ， 这 个 解码 器 是 该 公 
司 翻译 软件 的 另 一 个 重要 组 成 部 分 ， 解 码 器 和 翻译 参数 成 为 了 Language 
Weaver 公 司 翻译 软件 的 核心 (core components) 。 解 码 器 使 用 上 述 通过 
统计 学 习 获 得 的 翻译 参数 对 新 的 文本 进行 机 器 翻译 ， 把 新 的 源 语言 文本 
(new source language documents) 自动 地 翻译 成 新 的 目标 语言 译文 
(new target language translation) ， 提 供给 用 户 使 用 。Language Weaver 
公司 的 翻译 系统 的 工作 流程 如 图 11.7 所 示 : 
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图 11.7 Language Weaver 统 计 机 器 翻译 软件 工作 流程 


目前 ， 该 公司 开发 的 汉 英 机 器 翻译 系统 和 英语 一 西班牙 语 双 回 机 器 
翻译 系统 即将 问世 。 他 们 还 要 使 用 同样 的 方法 ， 开 发 英语 一 法 语 的 双 问 
机 絮 翻 译 系 统 、 印 地 语 一 瑞 语 以 及 索马里 语 一 英语 的 蛙 同 机 絮 翻 译 系 
统 。 

目前 ， 统 计 机 器 翻译 取得 很 好 的 成 果 。 这 里 我 们 以 汉 英 机 絮 翻 译 为 
例 ， 看 一 看 各 个 统计 机 需 翻 译 系统 的 翻译 效果 。 为 了 便于 比较 ， 我 们 让 
这 些 系统 都 翻译 同一 个 汉语 句子 : 


“新 华 网 拉萨 7 月 2 日 电 ， 这 是 举世 瞩目 的 历史 时 刻 : 7 月 2 日 零 时 31 
分 ， 首 趟 进 藏 旅客 列车 鸣 响 汽笛 ， 稳 稳 停 靠 在 拉萨 火车 站 1 号 站 台 。” 








中 国 科 学 院 计 算 技 术 研 究 所 〈ICT) 的 翻译 结果 : 


“Xinhuanet，Lhasa July 2 (Xinhua) , this is the world's historical 
moment: 0:31 on July 2, the first trip into Tibet, passenger trains rung first, its 


docked in Lhasa Station No.1 of the campaign." 
谷歌 的 在 线 统计 机 器 翻译 系统 “Google Translator” 的 翻译 结果 。 


*Xinhua Xinhua Lhasa, July 2, it is remarkable moment in history. At 


0:31 on July 2, the first passenger train trip to Tibet ringing whistle, firmly 


docked at the Lhasa Railway Station No. 1 Site." 


微软 的 在 线 统计 机 器 翻译 系统 *Microsoft Bing Translator” 的 翻译 结 
果 : 


“Xinhuanet, Laca, July 2, this is a remarkable moment in history: hours 
on July 2, the first sound trip into Tibet passenger train whistle, 1th steady 


docked in Lhasa railway station platform." 
雅虎 的 在 线 统计 机 器 翻译 系统 “Yahoo! Babel Fish” 的 翻译 结果 : 


“New China net Lhasa, July 2-, this is the historical time which attracts 
worldwide attention: On July 2 the zero hour 31 points, the first coming into 


Tibet passenger train resounds the steam shistle, anchors steadily in the Lhasa 


Train station 1* platform." 


不 难看 出 ， 这 些 统计 机 器 翻译 系统 的 英语 译文 都 具有 可 读 性 ， 当 然 也 有 
一 些小 错误 。 读 者 可 以 目 己 评价 这 些 译文 的 优 劣 。 





目前 越 来 越 多 的 互联 网 和 软件 公司 都 推出 了 基于 统计 的 在 线 的 机 器 
翻译 系统 。 主 要 的 在 线 统计 机 器 翻译 系统 有 : 


一 一 谷歌 的 多 语言 在 线 机 器 翻译 系统 Google Translator: 网 址 为 : 
http://translate.google.com. 


Google 翻译 


源 语言 ， | 英语 "| Ej 目标 语言 | 中 文 (简体 ) v) ， 翻 译 可 翻译 50 多 种 语言 
mijnvriend Wie bitte? === escargots -alsS 5! hoje está ensolarado 

i gidelim ama Àq AA Hjelp! děti 
en Sie? 





Google miz 

WES: x E Bese. 英语 | dex 将 中 文 译 成 英语 
2 新 华 网 拉萨 7 月 2 日 电 ， 这 是 举世 瞩目 的 历史 时 刻 ，7 月 2 日 村 时 31 分 ， 首 趟 进 藏 2 Xinhua Xinhua Lhasa, July 2, itis remarkable moment in history: at 0:31 on July 2, 
旅客 列车 鸣 响 汽 币 ， 稳 稳 停靠 在 拉萨 火车 站 1 号 站 台 。 the first passenger train trip to Tibet ringing whistle, firmly docked at the Lhasa Railw 


Station No. 1 site 


E] 允许 输入 拉丁 字符 的 拼音 2 
Das 国 显 示 对 应 的 拉丁 字符 的 拼音 


IFA: 以 搜索 国手 机 emt dus 


关于 Google 翻译 。 关闭 即时 翻译 。 隐私 权 政 策 。 帮助 


图 11.8 ”GoogleTranslator 的 网 站 ， 图 中 显示 了 一 个 汉 英 机 器 翻译 的 实例 





目前 Google Translator 系 统 可 翻译 的 语言 有 58 和 种， 翻译 方向 有 
58x57=3 306 个 ， 也 就 是 说 ， 这 个 系统 可 以 进行 3 306 个 语言 对 的 翻译 工 
作 ， 这 样 的 工作 显然 是 人 的 翻译 所 难以 胜任 的 。 





检测 语言 TREES) 加 利 西 亚 语 挪威 语 乌克兰 语 印尼 语 
阿 汞 巴 尼 亚 语 #8 加 泰 罗 尼 亚 语 were 希 怕 来 语 英语 
阿拉 伯 语 德语 捷克 语 日 语 希腊 语 越南 语 | 
阿塞拜疆 语 {is 克罗地亚 语 瑞典 语 西班牙 的 巴 斯 克 语 pi [ 
RHE 法 语 拉丁 语 塞尔维亚 语 西班牙 语 

: Sub BE 菲律宾 语 拉脱维亚 语 imetimia 名 牙 利 语 
白俄罗斯 语 HE whee 斯 洛 交 尼 亚 语 。 亚美尼亚 语 
保加利亚 语 HeATE 罗马 尼 亚 语 斯 瓦 希 里 语 意大利 语 

[ 冰岛 语 海地 克 里 奥 尔 语 马 耳 届 语 泰语 Bead 
波兰 语 韩语 马 来 语 土耳其 语 印 地 语 
波斯 语 荷兰 语 马其顿 语 BURT ENE S Rahs 








[11.9 Google Translator 可 翻译 的 语言 





如 果 用 户 不 知道 文本 的 语言 是 哪 一 种 语言 ，Google Translator% 4 
还 可 以 帮助 用 户 进行 检测 ， 根 据 文本 中 字母 的 同 现 概 率 来 判定 该 文本 完 
葛 属 于 哪 一 种 语言 ， 从 而 进行 机 器 翻译 ， 这 大 大 地 方便 了 说 不 同 语言 的 
人 们 在 互联 网 上 的 沟通 。 








微软 的 多 语言 在 线 机 器 翻译 系统 Microsoft Bing Translator 〈“ 必 
应 ”系统 ) ， 网 址 为 http:/www.microsofttranslator.com 。 


TI Á7 
DAM cing: —- 


在 线 翻译 





主页 | HP | 开发 人 员 | 站 点 所 有 者 | 帮助 


WSS: 简体 中 文 si x 
目标 语言 。 英语 v 2 


华 网 拉萨 7 月 2 日 电 ， 这 是 举世 瞩目 的 历史 时 刻 ; 7ACBERS1S. KAREA | | Xinhuanet, Laca, July 2-, this is a remarkable momentin history: hours on July 2, the first sound trip 
WR » RBS SECURE AU ISG. into Tibet passenger train whistle, 1th steady docked in Lhasa railway station platform 


输入 文本 或 网 页 URL 全 部 清除 ”复制 Wat Vit RE 四 不 人 宜 


图 11.10 MicrosoftBingTranslator 的 网 站 ， 图 中 显示 了 一 个 汉 英 机 器 翻译 的 实例 





Microsoft Bing Translator 可 翻译 的 语言 有 35 种 ， 翻 译 方向 有 35x34=1 
190 个 。 
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图 11.11 Microsoft Bing Translator 可 翻译 的 语言 


YAHOOI!, BABEL FISH 








In English 


New China net Lhasa, July 2 -, this is the historical 
time which attracts worldwide attention: On July 2 the 
zero hour 31 points, the first coming into Tibet 
passenger train resounds the steam shistle, anchors 
steadily in the Lhasa Train station 1st platform. 


Search the web with this text 


Translate again |. -. ( Enter up to 150 words ) 


新 华 网 拉萨 7 月 2 日 电 ， 这 是 举世 瞩目 的 历史 
时 刻 : 了 月 2 日 零 时 31 分 ， 首 趟 进 藏 旅客 列车 鸣 响 汽 
迄 ， 稳 稳 停 车 在 拉萨 火车 站 1 号 站 台 。 





Chinese-simp to English v | 








Translate a web page 2 


http:// 
Chinese-simp to English v 


图 11.12 Yahoo! BabelFish 的 网 站 ， 图 中 显示 了 一 个 汉 英 机 器 翻译 的 实例 











Select from and to languages | 


Select from and to languages 
Chinese-simp to English 
Chinese-simp to Chinese-trad 
Chinese-trad to English 
Chinese-trad to Chinese-simp 
English to Chinese-simp 
English to Chinese-trad 
English to Dutch 

English to French 

English to German 

English to Greek 

English to Italian 

English to Japanese 

English to Korean 

English to Portuguese 

English to Russian 

English to Spanish 

Dutch to English 

Dutch to French 

French to Dutch 

French to English 

French to German 

French to Greek d 
French to Italian 

French to Portuguese 

French to Spanish 

German to English 






























ul 


图 11.13 Yahoo! Babel Fish[ |] 可 翻译 的 语言 对 





Microsoft Bing Translator 系 统 也 可 以 帮助 用 户 自 动 地 检测 文本 所 属 


的 语言 。 


一 一 雅虎 的 多 语言 在 线 机 器 翻译 系统 Yahoo! Babel Fish， 网 址 为 : 
http://babelfish.yahoo.com. 


Yahoo! Babel Fish 系 统 可 翻译 语言 的 翻译 方向 有 : 





另外 ， 我 国 “ 百 度 ” 的 在 线 英 汉 机 顺 翻 译 系统 也 取得 了 较 好 的 效果 ， 
受到 了 用 户 的 好 评 。 





这 些 在 线 统计 机 器 翻译 系统 不 仅 直 接 推 动 了 机 需 翻 译 研究 的 发 展 ， 
而 且 ， 大 大 地 方便 了 人 们 的 生活 与 学 习 ， 人 类 的 语言 障碍 正在 逐渐 得 到 
克服 。 这 是 信息 时 代 自 然 语言 处 理 研 究 的 重大 成 果 ， 值 得 我 们 密切 关 
HE. 








当前 机 器 翻译 研究 的 大 量 事实 证 明 ， 在 机 器 翻译 中 ， 对 语言 的 分 析 
并 非 越 深 越 好 ! 目前 ， 人 们 更 加 倾向 于 通过 扩大 语言 模型 训练 数据 规模 
的 方法 ， 从 大 规模 真实 的 语 料 中 获取 对 于 机 器 翻译 有 用 的 语言 知识 ， 并 
适当 地 进行 一 些 浅 层 的 语言 分 机 ， 把 基于 统计 的 机 需 翻 译 与 基于 规则 的 
机 峰 翻 译 结合 起 来 ， 争 取得 到 最 好 的 机 器 翻译 结果 ， 而 这 种 最 好 的 机 器 
翻译 结果 ， 可 以 是 全 目 动 的， 但 却 不 一 定 是 高 质量 的 ， 而 只 是 具有 较 高 
参考 性 的 译文 。 














男 外 一 种 基于 语料库 的 机 器 翻译 是 基于 实例 的 机 器 翻译 。 下 面 我 们 
就 来 介绍 这 种 基于 实例 的 机 器 翻译 。 


基于 实例 的 机 器 翻译 (Example-based MT， 人 简称 EBMT) 的 思想 最 





早 是 由 日 本 机 器 翻译 专家 长 尾 真 (Nagao Makoto) 提出 来 的 。 他 在 1984 
年 发 表 了 《采用 类 比 原 则 进行 日 一 英 机 器 翻译 的 一 个 框架 》 DB) 一 文 ， 
探讨 日 本 人 初学 瑞 语 时 翻译 句子 的 基本 过 程 。 长 尾 真 认为 ， 初 学 英语 的 
日 本 人 总 是 记 住 一 些 最 基本 的 英语 句子 以 及 一 些 相 对 应 的 日 语句 子 ， 他 
们 要 对 比 不 同 的 瑞 语 句子 和 相对 应 的 日 语句 子 ， 并 由 此 推论 出 句子 的 结 
构 。 参 照 人 学 习 外 语 的 这 个 过 程 ， 在 机 器 翻译 中 ， 如 果 我 们 给 出 一 些 英 
语句 子 的 实例 以 及 相对 应 的 日 语句 子 ， 机 器 翻译 系统 来 识别 和 比较 这 些 
实例 及 其 译文 的 相似 之 处 和 相差 之 处 ， 从 而 挑选 出 正确 的 译文 。 








长 尾 真 指出 ， 人 类 并 不 通过 做 深层 的 语言 学 分 析 来 进行 翻译 ， 人 类 
的 翻译 过 程 是 : 首先 把 输入 的 句子 正确 地 分 解 为 一 些 短 语 雁 片 ， 接 着 把 
这 些 短 语 碎片 翻译 成 其 他 语言 的 短语 碎片 ， 最 后 再 把 这 些 短 语 人 碎片 构成 
完整 的 句子 ， 每 个 短语 碎片 的 翻译 是 通过 类 比 的 原则 来 实现 的 ， 也 惑 
是 “通过 类 比 来 进行 翻译 ”(“translation by analogy”) 。 因 此 ， 我 们 应 该 
在 计算 机 中 存储 一 些 实 例 ， 并 建立 由 给 定 的 句子 搜索 类 似 例 句 的 机 制 ， 
这 是 一 种 由 实例 引导 推理 的 机 器 翻译 方法 ， 也 就 是 基于 实例 的 机 器 翻译 
pm 


在 基于 实例 的 机 器 翻译 系统 中 ， 系 统 的 主要 知识 源 是 双语 对 照 的 翻 
译 实例 库 ， 实 例 库 主要 有 两 个 字段 ， 一 个 字段 保存 源 语言 句子 ， 男 一 个 
字段 保存 与 之 对 应 的 译文 ， 每 输入 一 个 源 语言 的 句子 时 ， 系 统 把 这 个 句 
子 同 实例 库 中 的 源 语言 句子 字段 进行 比较 ， 找 出 与 这 个 句子 最 为 相似 的 
句子 ， 并 模拟 与 这 个 句子 相对 应 的 译文 ， 最 后 输出 译文 。 








基于 实例 的 机 器 翻译 过 程 一 般 可 分 为 三 个 阶段 : 匹配 
(matching) ， 对 齐 (alignment) ， 重 新 组 合 (recombination) 。 





匹配 阶段 可 有 多 种 方法 来 实施 ， 这 取决 于 实例 是 如 何 存储 的 。 


如 果 在 基于 实例 的 机 器 翻译 系统 中 ， 实 例 是 以 标注 了 的 树 结构 存在 
的 ， 两 种 语言 的 成 分 间 存 在 着 明确 的 联系 ， 因 此 ， 新 输入 的 句子 要 使 用 
和 前 面相 同 的 语法 规则 来 进行 剖析 ， 词 汇 层 面 的 差异 由 分 级 词典 来 量 
化 ; 语言 中 所 有 保留 的 部 分 都 是 经 过 檀 切 和 粘贴 部 分 重合 的 树 结构 而 来 
的 。 





如 果实 例 不 是 以 标注 了 的 树 结构 而 存在 的 ， 那 么 ， 就 要 将 这 些 实例 
和 新 的 输入 看 作 是 字符 串 ， 匹 配 的 过 程 就 变 成 了 对 于 有 关 实 例 的 顺序 进 
行 比较 ， 这 其 中 可 以 采用 很 多 不 同 的 算法 。 由 于 没有 树 结构 可 以 依赖 ， 
对 齐 和 再 结合 的 过 程 在 这 个 环节 会 变 得 更 加 复杂 。 








在 基于 实例 的 机 器 翻译 中 ， 实 例 是 从 真实 存在 的 翻译 语料库 中 抽取 
而 来 的 。 但 这 样 的 实例 往往 含有 重 有 登 或 邓 盾 。 许 多 研究 者 通过 排除 或 调 
换 这 样 的 实例 来 解决 这 个 问题 ， 对 于 茶 些 特殊 的 实例 ， 要 进行 手动 删除 
或 重新 调整 实例 。 





匹配 阶段 需要 找到 和 输入 有 相似 性 的 用 于 翻译 的 实例 ， 对 齐 阶段 要 
确定 哪 一 部 分 对 应 的 翻译 将 被 再 次 利用 。 如 果实 例 存 储 的 方式 使 得 语言 
间 的 联系 非常 清晰 ， 这 个 过 程 便 非 常 简 单 ， 否 则 就 需要 涉及 一 些 更 复杂 
的 过 程 ， 或 者 需要 运用 双语 词典 ， 或 者 与 其 他 的 实例 进行 对 比 。 在 基于 
实例 的 机 器 翻译 系统 中 ， 这 样 的 对 齐 是 上 自动 完成 的 。 有 些 系统 中 ， 匹 配 
阶段 将 确定 合适 的 含有 需要 翻译 的 例子 。 











在 重新 组 合 阶段 ， 我 们 要 以 合理 的 方式 将 那些 需要 重新 组 合 的 成 分 
放 在 一 起 。 为 了 说 明 这 一 点 ， 我 们 以 德语 为 例 ， 因 为 德语 有 清晰 的 格 标 
记 区 分 主语 和 宾语 。 例 如 ， 在 英语 到 德语 的 机 器 翻译 系统 中 ， 如 果 我 们 
要 在 例子 b 和 c 的 基础 上 来 翻译 句子 a。 由 于 在 b 和 c 的 德语 文本 中 ， 对 应 
于 英语 短语 the handsome boy 的 德语 译文 在 每 个 例子 中 都 不 一 样 ， 在 b 中 


是 主格 形式 Der schöne Junge， 在 c 中 是 宾 格 形式 den schönen Jungen， 我 
们 需要 根据 德语 的 语法 以 便 选 取 合适 的 译文 作为 a 中 the handsome boy 的 
德语 译文 ， 由 于 a 中 的 the handsome boy 是 主语 ， 因 此 ， 我 们 需要 选取 主 
格 形式 Der schöne Junge 作 为 the handsome boy 的 译文 。 


a. The handsome boy entered the room. 

b. 3X Y: The handsome boy ate his breakfast. 
f& Y : Der schöne Junge aß seinen Frühstück. 

c. Jt X: I saw the handsome boy. 


德 文 : Ich sah den schönen Jungen. 


基于 实例 的 机 器 翻译 系统 中 ， 翻 译 知 识 以 实例 和 机 器 词典 的 形式 来 
表示 ， 易 于 增加 或 删除 ， 系 统 的 维护 简单 易 行 ， 如 果 利 用 了 较 大 的 翻译 
实例 库 并 进行 精确 的 对 比 ， 残 有 可 能 产生 高 质量 诺 文 ， 而 且 避 免 了 基于 
规则 的 那些 传统 的 机 器 翻 译 方法 必须 进行 深层 语言 学 分 析 的 困难 。 这 种 
机 需 翻 译 方法 在 翻译 策略 上 是 很 有 吸引 力 的 。 








要 进行 基于 实例 的 机 需 翻 译 希 要 研究 如 下 问题 : 





第 一 ， 正 确 地 进行 双语 自动 对 齐 〈alignment) : 在 实例 库 中 要 能 准 
确 地 由 源 语言 例句 找到 相应 的 目标 语言 例句 ， 在 基于 实例 的 机 器 翻译 系 
统 的 具体 实现 中 ， 不 仅 要 求 进行 句子 一 级 的 对 齐 ， 而 且 还 要 求 进 行 词汇 
一 级 甚至 短语 一 级 的 对 齐 。 











第 二 ， 建 并 有 效 的 实例 匹配 检索 机 制 : 很 多 研究 者 认为 ， 基 于 实例 
的 机 咒 翻 译 的 潜力 在 于 充分 利用 短语 一 级 的 实例 碎片 ， 也 就 是 在 短语 一 
级 进行 对 齐 ; 但 是 ， 利 用 的 实例 雁 片 越 小 ， 碎 片 的 边界 越 难于 确定 ， 改 
义 情 况 越 多 ， 从 而 导致 翻译 质量 的 下 降 ， 为 此 ， 和 要 建立 一 套 相 似 度 准 则 


(similarity metric) ， 以 便 确定 两 个 句子 或 者 短语 人 雄 片 是 否 相 似 。 





第 三 ， 根 据 检 过 到 的 实例 生成 与 源 语言 句子 相对 应 的 目标 语言 译 
文 : 由 于 基于 实例 的 机 右 翻 译 对 源 语言 的 分 析 比 较 粗 ， 生 成 译文 时 往往 
缺乏 必要 的 信息 ， 为 了 提高 译文 生成 的 质量 ， 可 以 考虑 把 基于 实例 的 机 
需 翻 译 与 传统 的 基于 规则 的 机 需 翻 译 方法 络 合 起 来 ， 对 源 语 言 也 进行 一 
定 深度 的 分 析 。 





目前 世界 上 的 基于 实例 的 机 器 翻译 系统 主要 有 : 





日 本 京都 大 学 长 尾 真 和 佐藤 〈S. Sato) 的 MBT1 和 MBT2 系 统 : 
MBT1 只 能 利用 句子 的 格 框架 来 选择 适当 的 译文 ， 实 际 上 只 是 一 个 基于 
实例 的 译文 选择 系统 。MBT2 是 一 个 完整 的 基于 实例 的 机 器 翻译 系统 ， 
该 系统 的 翻译 过 程 分 为 分 解 (decomposition) 、 转 换 (transfer) 、 合 成 

(composition) 三 步 。 在 分 解 阶 段 ， 系 统 根据 提交 的 源 语言 词汇 依存 树 
检索 实例 库 ， 并 利用 检索 到 的 实例 碎 卢 来 表示 该 源 语言 句子 的 依存 树 ， 
形成 源 匹 配 表达 式 ; 在 转换 阶段 ， 系 统 利用 实例 库 中 的 对 齐 信息 将 源 匹 
配 表达 式 转 换 成 目标 匹配 表达 式 ; 在 合成 阶段 ， 将 目标 匹配 表达 式 展 开 
成 为 目标 语言 词汇 依存 树 ， 输 出 译文 。 该 系统 的 分 解 阶段 相当 我 们 前 面 
介绍 的 匹配 阶段 ， 该 系统 的 转换 阶段 相当 于 我 们 前 面 介绍 的 对 齐 阶 段 ， 
该 系统 的 合成 阶段 相当 于 我 们 前 面 介绍 的 重新 组 合 阶段 。 其 翻译 原理 与 
其 他 的 基于 实例 的 机 器 翻译 系统 是 完全 一 致 的 。 











一 一 美国 卡 内 基 一 梅 隆 大 学 的 多 引擎 机 器 翻译 系统 (Multi-engine 
Machine Translation) PANGLOSS 系 统 : 这 个 系统 的 主要 引擎 是 基于 知 
识 的 机 器 翻译 系统 ， 基 于 实例 的 机 器 翻译 系统 只 是 它 的 一 个 引擎 ， 为 整 
个 多 引擎 机 器 系统 提供 候选 结果 。 下 面 我 们 还 要 进一步 介绍 这 个 多 引 苟 
机 器 翻译 系统 。 








一 一 日 本 口语 翻译 通信 研究 实验 室 ATR 的 ETOC 和 EBMT 系 统 : 
ETOC 系 统 能 够 检索 出 与 给 定 的 源 语言 句子 相似 的 实例 ，EBMT 系 统 能 
够 利用 实例 库 来 消解 歧义 ， 这 两 个 基于 实例 的 机 器 翻译 系统 目前 还 不 完 


整 。 





我 国清 华 大 学 计算 机 系 也 进行 了 基于 实例 的 机 需 翻 译 试验 ， 建 立 了 
基于 实例 的 日 汉 机 器 翻译 系统 ， 在 哈尔滨 工业 大 学 和 清华 大 学 联合 开发 
的 计算 机 写作 和 翻译 的 集成 环境 “ 达 雅 ”系统 中 ， 也 使 用 了 基于 实例 的 技 
术 。 








"B—HW Olas a 


20 世 纪 80 年 代 以 来 ， 国 外 开始 自动 翻译 电话 的 研究 ， 在 日 本 关 西 地 
区 成 并 了 自动 电话 研究 所 (Interpreting Telephone Research Institute 
International， 人 简称 ART) ,其 目的 在 于 把 语音 识别 、 语 音 合 成 技术 用 于 
机 器 翻译 中 ， 实 现 口语 机 器 翻译 。 
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目标 语言 
话 音 输 出 | | | Uu v 
图 11.14 ”口语 机 器 翻译 流程 








这 个 流程 可 以 简明 地 表示 为 如 下 的 原理 图 示 : 






知识 库 1 知识 库 2 





知识 库 3 


图 11.15 ”口语 机 器 翻译 流程 的 原理 
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在 这 个 原理 图 中 ，ASR 自 动 语 音 识别 (Automatic Speech 
Recognition) 的 英文 缩写 ,MT 是 机 器 翻译 (Machine Translation) 的 英文 
缩写 ，TTS 是 文本 语音 转换 (Text-To-Speech) 的 英文 缩写 。 


1987 年 10 月 在 瑞士 日 内 瓦 召 开 的 TELECOM'87 会 议 期 间 举办 的 最 新 
通信 技术 国际 展览 会 上 ， 表 演 了 自动 翻译 电话 试验 。 他 们 把 机 器 翻译 系 
统 与 办 公用 通讯 网 NTT, KDD, PTT) 等 结合 起 来 ， 利 用 通信 卫星 ， 在 
瑞士 与 日 本 之 间 通 话 ， 在 日 本 的 通话 者 讲 日 语 ， 在 瑞士 的 通话 者 可 以 听 
到 经 过 机 器 翻译 得 到 的 相应 的 英语 口语 译文 ， 在 瑞士 的 通话 者 讲 英 语 ， 
在 日 本 的 通话 者 可 以 听 到 经 过 机 器 翻译 的 相应 的 日 语 译文 。 自 动 翻译 电 
话 通话 试验 ， 一 时 引起 猴 动 。 


此 后 ， 口 语 机 器 翻译 在 各 国 开展 起 来 ， 国 外 部 分 有 代表 性 的 系统 如 
F: 


口 国外 部 分 代表 系统 
系统 名 称 开发 单位 | 时 间 领域 语种 | 方法 | 词汇 量 
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图 11.16 ”国外 部 分 语音 翻译 系统 


图 中 ，RB 是 “基于 规则 ”(Rule-Based) 的 英文 缩写 ， ”ME 是 “最 大 








A" (Maximum Entropy) HRL, EBE “AEF KA” CExample- 
Based) 的 英文 缩写 ，SB 是 基于 统计 〈Statistic-Based) 的 英文 缩写 。 


近来 ， 中 国 科 学 院 自 动 化 研究 所 模式 识别 国家 重点 实验 室 
(NLPR) 与 韩国 电子 通信 研究 所 (ETRI) 合作 ， 进 行 了 汉语 和 韩语 的 
口语 翻译 实验 ， 在 北京 打 电 话 用 汉语 ， 在 韩国 大 田 的 ETRI 听 到 的 是 韩 
语 ， 在 韩国 大 田 打 电话 用 韩语 ， 在 北京 听 到 的 是 汉语 ， 这 样 的 成 绩 令 人 
鼓舞 (图 11.17) 。 
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中 国 科学 院 自 动 化 研究 所 还 进行 了 中 日 双向 语音 翻译 的 试验 。 如 图 
11.18 所 示 。 日 本 顾客 用 日 语 癌 中 国 的 服务 员 提 问 ， 经 过 口语 机 器 翻 
译 ， 服 务 员 听 到 的 是 汉语 ， 中 国 的 服务 员 用 汉语 回答 ， 经 过 口语 机 器 翻 
WE. 日 本 顾客 听 到 的 是 日 语 。 
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”图 11.19 中 英 双 向 口语 翻译 机 





2007 年 ， 中 国 科学 院 上 自动化 所 开发 完成 基于 擎 上 电脑 的 汉 英 双 同 语 
首 翻 译 原型 系统 ， 中 英 双 向 口语 翻译 机 。 


不 过 ， 这 些 口语 机 器 翻译 实验 都 是 在 特定 的 领域 进行 的 ， 由 于 机 器 
翻译 、 语 音 的 识别 与 合成 都 是 十 分 困难 的 技术 ， 集 这 些 困难 技术 于 一 身 
的 自动 翻译 电话 的 实用 化 还 不 是 可 以 一 跳 而 就 的 。 





为 了 开发 语音 自动 翻译 系统 ， 国 际 上 建立 了 国际 语音 翻译 联盟 
(Consortium for Speech Translation Advanced Research， 人 简称 C-STAR ) 
的 组 织 ，2000 年 10 月 ， 中 国 科学 院 自动 化 研究 所 国家 模式 识别 实验 室 
(National Lab of Pattern Recognition, NLPR) 成 为 了 该 组 织 的 7 个 核心 成 


E v 
凤 忆 一 。 








图 11.20”C-STAR 的 7 个 核心 成 员 分 布 


C-STAR 使 用 一 种 中 间 转 换 式 (Interchange ”Format， 简 称 IF) 。 各 
个 成 员 国 分 别 研制 本 国语 言 到 IF 的 分 析 和 生成 ， 这 样 ， 各 种 语言 就 只 需 
分 别针 对 IF 开发 一 个 从 该 国语 言 到 下 的 分 析 系 统 以 及 从 IF 到 本 国语 言 的 
生成 系统 就 可 以 了 。 


C-STAR 使 用 中 间 转 换 式 IF (Interchange Format) 来 建立 的 翻译 框 
架 如 图 11.21 所 示 。 
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or Translated Text 








图 11.21 C-STAR 翻 译 框架 : 使 用 中 间 转 换 式 IF 


现在 正在 研制 C-STAR II， 其 目标 是 研制 语音 的 实用 技术 ， 为 旅游 
提供 口语 机 器 翻译 的 技术 支持 ， 在 任何 地 方 ， 任 何 时 刻 都 能 够 进行 口语 
机 右 翻 译 翻译 服务 (图 11.22) 。 


C-STAR III Goal 


= Technology for real 


application 
a Translating aid for 
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a Service available 
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当然 ， 要 实现 这 个 目标 是 很 困难 的 ， 目 前 ， 语 音 识 别 的 质量 还 不 








高 ， 在 噪声 环境 下 ， 识 别 效果 还 不 好 ， 不 过 ， 语 音 合成 已 经 接近 实用 水 
平 ， 而 文字 的 输入 和 上 自动 翻译 已 经 达到 一 定 的 水 平 ， 因 此 ， 可 以 考虑 把 
文字 输入 、 机 器 翻译 和 语音 输出 结合 起 来 。 





"BS ”翻译 记忆 与 本 土 化 工具 


在 机 需 翻 译 实用 化 的 研究 中 ， 学 者 们 还 设计 了 翻译 记忆 软件 与 本 土 
化 软件 工具 。 


“翻译 记忆 ”(Translation Memories， 简 称 TMs) 软件 能 够 保存 和 重 
复 使 用 翻译 工作 者 已 经 翻译 好 的 译文 。 这 些 译文 对 于 新 的 翻译 文件 来 
看 ， 是 “似曾相识 的 记忆 ”， 这 使 我 们 想起 我 国 古诗 中 的 名 句 : “无 可 茶 
何 花 落 去 ,似曾相识 燕 归 来 " 翻译 记忆 就 是 “似曾相识 ”的 “巷子 ”。 





翻译 记忆 软件 在 内 容 修 订 和 更 新 的 全 过 程 中 能 保存 和 重复 使 用 译 
文 。 如 果 有 新 的 资料 需要 翻译 ， 可 以 使 用 原来 存储 在 翻译 记忆 中 的 译 
X, 重复 使 用 原来 的 译文 。 这 种 翻译 记忆 的 方法 与 基于 统计 的 机 器 翻译 
的 思路 是 很 接近 的 。 








使 用 翻译 记忆 的 方法 ， 原 来 的 译文 与 新 的 资料 之 间 要 进行 下 配 ， 或 
者 是 精确 匹配 Cexact match) ， 或 者 完全 匹配 (full match) ， 或 者 是 模 
HHLA (fuzzy match，， 翻 译 记忆 软件 可 以 根据 匹配 的 不 同 水 平 来 决定 
翻译 策略 。 








翻译 记忆 软件 与 机 器 翻译 软件 不 同 ， 机 融 翻 译 软件 是 一 种 和 目 己 进 行 
翻译 的 软件 系统 ， 它 只 能 提供 质量 不 高 的 译文 草稿 。 而 翻译 记忆 软件 可 
以 保存 和 重复 使 用 人 工 翻译 工作 者 的 译文 ， 保 证 了 译文 的 质量 ， 减 少 了 
翻译 的 开 文 ， 降 低 了 翻译 的 成 本 ， 避 免 了 重复 的 翻译 ， 而 且 还 可 以 保证 
翻译 的 一 致 性 ， 特 别 是 保证 术语 翻译 的 一 致 性 。 











翻译 记忆 是 企业 重要 的 知识 资产 ， 作 为 知识 资产 的 翻译 记忆 库 ， 可 





以 在 公司 内 得 到 最 大 程度 的 应 用 和 重复 使 用 。 中 央 翻 译 记 忆 库 中 保存 的 
译文 越 多 ， 降 低 的 成 本 也 就 越 多 。 我 们 可 以 采用 集中 管理 翻译 记忆 库 的 
方法 ， 来 提高 翻译 记忆 库 的 使 用 效率 。 








TRADOS 公 司 的 翻译 记忆 系列 产品 Translatior's 
Workbench Chttp://www.trados.com ) ， 就 是 一 个 很 出 色 的 翻译 记忆 软件 
(图 11.23) 。 
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Web sites. Product catalogs. Sales tools. Marketing messages. Brands. 
Documentation. Customer support guides. Compliance documents. What 
do they have in common? 


They all contain similar, if not identical, carefully-crafted language and messages, recurring 
DE phrases and statements that can make up to 4096 or more ofthe text in your company's 
communications. For some companies, as much as 7096. 
| so foryou to deliver your contentto global markets, translators have to re-translate the same 
hrases again and again, introducing new inconsistencies into your branding, dramatically 
slowing down your multinational operations. To solve that problem, and to ensure you are 
connected with the global ecosystem of SOL TRADOS-enabled translation technology 
users, you can rely on SDL Trados 2006. It can be the single biggest factor in improving the 
| speed, consistency, accuracy, and costs of your localized content. 
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[11.23 ”Trados 翻 译 记 忆 








本 土 化 〈localization) 是 商品 适应 本 土 市 场 要 求 的 过 程 。 在 本 土 化 
过 程 中 ， 除 了 翻译 工作 之 外 ， 还 要 考虑 本 土地 区 的 文化 习俗 。 本 土 化 软 
件 有 必要 把 与 翻译 有 关 的 各 种 功能 结合 起 来 ， 实 现 “ 所 见 即 所 得 ”(What 
You See Is What You Get， 简 称 WYSIWYG) 的 服务 。 


Corel 公 司 的 本 土 化 软件 Catalyst Chttp://alchemysoftware.ie ) ， 是 一 
个 很 著名 的 本 土 化 软件 (图 11.24) 。 
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图 11.24 ”Catalyst 本 土 化 软件 


本 土 化 软件 Passolo (Pass Software 


(http://www.passolo.com ) 是 男 一 个 著名 的 本 土 化 软件 (图 11.25) 
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Welcome to PASSOLO 


Introducing products to foreign markets is one of the key challenges in an 
increasingly globalized world. To ensure success in the global market place, it is 
essential to communicate with customers in their regional languages. Translation 
and localization are thus becoming critical factors for international success. 
Meeting the localization challenge offers companies new opportunities to develop 
markets and increase profits, 


PASSOLO - one of the market leaders in software localization tools - offers 

cutting-edge localization technology, proven usability across all the major 

software platforms, powerful interfaces for customization and integration... and 

Makes Your very competitive, scalable pricing. 

Software Ready for the Please come in to find out more about how PASSOLO can help you meet the 
Global Market localization challenge. 





PASSOLO is the most popular localization tool 
Bonn, May 2006. 


Since April 28th it is official: PASSOLO is the 

localization tool with the largest and most 

satisfied customer base. That, at least, is the 4 
| - result of the Client Side News (CSN) survey 

VOORN carried out by the US-based enterprise for the 

fourth time this year, 


E ^ 
Visitors to the CSN Web site had three months to [d 


cast their votes for different categories, including 


Google Search the best localization tool, PASSOLO received this ee 
: = coveted prize for the first time this year. ClientSide sss 
EXCELLENCE 


What makes this award so important for us is that A W 
PASS it is given by the customers. It's not a matter of 


Search www, passolo.com 


900€ 








Testimonials 


Hans Fiers 
Documentation Manager 
Agfa Healthcare Inforrnatics, Belgium (May 2006) 


“A well deserved price (CSN Award 2006). 
Congratulations to the whole PASSOLO team!" 


Karen Sanders 
Quality Assurance Manager 
Seagull Scientific, Inc., USA (May 2006) 


"We have been using PASSOLO for about 6 
months. The initial implementation was surprising 
quick and easy - we were up and running with 
PASSOLO in a matter of a day or two, Additionall: 
we have found the PASSOLO interface extremely 
intuitive, We often have in-country personnel 
contribute translation work. Previously we would 
distribute Excel documents for translations, but 
now we send a PASSOLO translation bundle with 
short description of how to download the 
Translator version from PASSOLO and a brief 
description of how to get started. The learning 
curve is minimal and the translators enjoy workir 
with the product. 


With our old tool and processes, managing 
translations and sizing dialogs was very hands-or 
and extremely time intensive, PASSOLO's 
automation interface has allowed us to streamline 
procedures. For instance, integration with our bui 
process allows for automatic update of source file 
which is then automatically propagated to the 
translation files, thus ensuring that the UI of each 
language is always in synch with the source 
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可 以 看 出 ， 机 器 翻译 的 实用 化 和 商品 化 已 经 从 人 人 们 的 梦想 变 成 了 具 


体 的 现实 。 


Localizer) 





不 过 ， 在 机 器 翻译 系统 纷纷 宣布 实用 化 商品 化 的 一 片 乐 融融 的 气氛 
中 ， 也 有 一 些 现象 令 我 们 担忧 。 从 已 经 推出 的 实用 化 机 器 翻译 系统 的 译 
文 质量 来 看 ， 还 不 十 分 令 人 满意 ， 对 于 一 些 简单 的 句子 ， 译 文 一 般 不 会 
有 大 问题 ， 但 对 于 一 些 稍 长 的 句子 或 结构 稍 复杂 的 句子 ， 译 文 质量 就 不 
能 令 人 满意 ， 有 时 简直 是 不 可 浴 读 ， 有 的 系统 为 了 保持 一 定 的 译文 质 
量 ， 不 得 不 将 输入 语言 的 范围 加 以 严格 的 限制 。 因 此 ， 有 许多 商品 化 系 
统 虽然 卖 出 去 了 ， 但 使 用 情况 并 不 理想 。 例 如 ， 日 本 富士 通 的 ATLAS 
系统 已 售 出 300 多 套 ， 但 是 据说 只 有 10% 的 用 户 在 使 用 。 国 内 一 些 商品 
化 的 机 器 翻译 系统 ， 虽 然 也 有 一 定数 量 是 销售 额 ， 但 用 户 使 用 的 实际 情 
况 并 不 十 分 理想 。 带 有 探索 性 的 大 型 机 器 翻译 计划 EUROTRA 和 ODA,， 
至 今 尚 未 达到 预期 的 目的 。 机 器 翻译 系统 的 实用 化 和 商品 化 问题 面临 着 
严峻 的 考验 。 

















看 来 ， 我 们 对 于 机 器 翻译 产品 的 实用 化 和 商品 化 ， 还 不 能 估计 得 过 
分 乐观 。1964 年 美国 ALPAC 报 告 指 出 的 机 器 翻译 遇 到 的 “语义 障碍 ”至 今 
仍然 存在 ， 机 器 翻译 技术 至 今 似乎 仍然 没有 取得 突破 性 的 进展 。 因 此 ， 
今后 进一步 加 强 机 器 翻译 基础 理论 和 应 用 技术 的 研究 ， 仍 然 是 非常 必要 
的 。 


不 过 ， 无 论 如 何 ， 机 占 翻 译 已 经 从 人 们 的 梦想 逐步 变 成 活生生 的 现 
实 ， 这 是 令 我 们 感到 振奋 的 。 机 器 翻 译 随 着 计算 机 的 诞生 而 诞生 ， 它 也 
将 随 着 计算 机 的 及 展 而 发 展 ， 只 要 有 计算 机 存在 ， 机 器 翻译 的 研究 就 会 
存在 。 机 器 翻译 永远 是 一 个 与 计算 机 共生 共存 的 研究 领域 。 
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[1] BLEUXÉBiLingual Evaluation Understudy 的 简称 ， 是 一 种 基于 N 
元 语法 的 、 已 经 被 国际 公认 的 机 器 翻译 评测 指标 。 


[2] 应 当 注 意 的 是 ， 训 练 语言 模型 的 语料库 还 应 当 保证 质量 。2011 
年 “百度 ”在 开发 英汉 统计 机 器 翻译 系统 时 ， 开 始 时 使 用 1 000 万 句 的 英汉 
双语 语 料 ， 由 于 语 料 质量 不 高 ， 训 练 效 果 不 佳 ， 后来， 他们 把 训练 语 料 
精简 为 400 万 多， 训练 效果 反而 提高 了 。 因 此 ， 在 训练 语料库 的 建设 
中 ， 除 了 从 数量 上 扩大 语料库 的 规模 之 外 ， 还 应 当 特 别 重 视 语料库 的 质 
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[3] M. Nagao, A framework of a mechanical translation between 
Japanese and English by analogy principle, In Artificial and Human 
Intelligence, Sponsored by the Special Programme Panel, Held in Lyon, 
France, October, 1981, Elsevier Science Publishers, Amsterdam, Chapter 11, 
173-180, 1984. 
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“信息 自动 检索 ”(automatic information retrieval) 主要 是 指 文本 的 
信息 检索 。 信 息 检 索 系 统 的 任务 在 于 ， 对 于 用 户 提 出 的 提问 或 者 命题 ， 
给 出 与 之 有 关 文 献 的 集合 ， 作 为 检索 的 结果 。 本 章 首先 介绍 信息 检索 的 
一 般 原 理 和 发 展现 状 ， 然 后 讨论 上 自然 语言 处 理 技术 与 信息 检索 技术 之 间 
的 关系 ， 说 明 如 何 使 用 自然 语言 处 理 所 得 到 的 形态 信息 、 短 语 信 息 、 句 
法 信息 来 改进 信息 检索 中 的 索引 技术 ， 介 绍 了 不 同 的 观点 ， 指 出 了 当前 
的 一 些 发 展 趋 癌 ， 最 后 介绍 语种 辨认 和 路 语言 信息 检索 。 





























第 一 让 ”信息 检索 的 一 般 原 理 和 友 
展现 状 


信息 自动 检索 可 以 从 不 同 的 角度 来 分 类 








按 计 算 机 存 贮 的 信息 内 容 的 表现 形式 ， 可 以 分 为 : 





(1) 数值 检索 ;计算 机 存 贮 的 信息 是 数值 ， 检 索 时 ， 要 搜索 数值 
资料 档 ， 并 针对 提问 输出 答案 


(20 事实 检索 : 计算 机 存 贮 的 信息 是 各 种 事实 ， 检 索 时 ， 可 以 对 
被 检索 的 事实 作 茶 种 逻辑 推理 ， 进 行 比较 和 分 析 ， 然 后 再 输出 答案 








(3) 文献 检索 : 计算 机 存 贮 的 信息 是 文章 标题 、 著 录 项 目 和 由 关 
键 词组 成 的 文献 单元 ， 或 者 是 文献 的 全 文 ， 检 索 时 ， 按 提问 检索 词 查找 
文献 资料 档 ， 输 出 文献 题 录 、 文 章 摘要 或 文献 的 有 关 片 段 。 











按 计算 机 存 贮 信息 内 容 的 时 间 ， 可 分 为 : 

(1) 现 刊 检索 : 检索 时 可 以 提供 当前 现 刊 上 的 信息 。 
(2) EWER: 检索 时 可 以 退 调 符 干 年 前 的 信息 。 
按 计 算 机 检索 的 方式 ， 可 以 分 为 : 


C1) 脱 机 检索 :检索 时 不 直接 进行 计算 机 操作 ， 利 用 计算 机 作 批 
处 理 。 


(2) 联机 检索 : 检索 时 利用 计算 机 直接 联机 进行 操作 ， 或 者 利用 
计算 机 的 近 程 或 远程 终端 进行 人 机 交互 。 








信息 目 动 检索 开始 于 20 世 纪 50 年 代 初 期 。1954 年 ， 美 国 海 盏 军械 实 
验 站 图 书馆 利用 IBM-701 电 子 计算 机 ， 建 六 了 世界 上 第 一 个 计算 机 信息 
检索 系统 。1959 年 ， 美 国 的 卢 恩 (H.P. Luhn) 利用 IBM-650 电 子 计算 
机 ， 进 行 计算 机 定 题 信息 检索 服务 。1960 年 ， 美 国 抹 省 理工 学 院 
OMIT) 开始 实施 有 关联 机 信息 检索 系统 的 “ 拉 术 信息 计划 ”(Technical 
Information Plan， 人 简称 TIP) 。1962 年 ， 美 国 系统 发 展 公 司 (System 
Development Company， 人 简称 SDC) 在 全 文 检索 系统 Protosynthex 上 ， 进 
行 了 世界 上 最 早 的 联机 信息 检索 实验 。1964 年 ， 美 国 系统 发 展 公司 研制 
成 功 ORBIT (On-line Retrieval of Bibliographic Information-Time 
Shared) 联机 信息 检索 软件 。 








20 世 纪 70 年 代 以 来 ， 联 机 信息 检索 有 了 进一步 的 发 展 ， 并 向 计算 机 
网 络 过 渡 。 联 机 信息 检索 系统 除了 上 述 的 ORBIT 之 外 ， 还 有 美国 国家 医 
学 图 书馆 的 MEDLINE 系 统 、 美 国 洛克 希 德 公司 的 DIALOG 系 统 。 与 此 
同时 ， 法 国 、 英 国 、 日 本 、 加 拿 大 也 先后 建立 了 联机 信息 检索 系统 。 如 
欧洲 空间 组 织 信 息 检 索 中 心 的 ESA-IRS 系 统 。 





进入 20 世 纪 70 年 代 以 后 ， 由 于 分 时 计算 机 、 带 终端 的 远程 处 理 系 
统 、 廉 价 的 大 容量 随机 存 贮 器 、 分 组 交换 网 等 技术 的 迅速 发 展 ， 使 联机 
言 息 检 索 由 内 部 试验 性 使 用 发 展 为 面向 公众 的 商业 性 服务 ，ORBIT、 
MEDLINE、DIALOG 等 系统 都 相继 投入 商业 性 运营 和 网 络 化 服务 。 


20 世 纪 80 年 代 以 来 ， 由 于 个 人 微型 计算 机 的 普 所 使用， 使 得 联机 检 
索 的 用 户 从 各 种 中 间 人 转移 到 最 终 用 户 ， 即 目 己 有 微型 机 算 机 的 经 营 
者 、 专 业 人 员 和 家 许 ， 使 得 联机 信息 检索 进一步 提高 其 友善 性 和 易 用 


性 ， 各 种 对 用 户 友 好 的 联机 信息 检索 系统 相继 出 现 ， 自 动 信息 检索 系统 
开始 进入 普通 人 的 家 庭 。 由 于 互联 网 (Web) 和 网 络 搜索 引擎 (search 
engine) 的 发 展 ， 上 自动 信息 检索 已 经 成 为 任何 一 个 上 网 工作 的 普通 民众 
获取 信息 的 基本 手段 。 














我 国 从 1963 年 开始 进行 机 械 信 息 检 索 的 研究 工作 。1965 年 进行 了 机 
械 信息 检索 试验 。20 志 纪 70 年 代 以 来 开始 研究 计算 机 信息 检索 。1975 年 
进行 了 首次 计算 机 信息 检索 试验 。1977 年 进行 了 计算 机 联机 检索 试验 。 





1983 年 在 中 国 科 学 技术 信息 研究 所 建立 了 连接 美国 、 欧 洲 主 要 国家 
的 数据 库 联 机 检索 系统 ， 这 个 系统 通过 意大利 的 ITALCABLE 分 组 交换 
中 心 ， 连 接 到 欧洲 空间 组 织 的 ESA-IRS 系 统 ， 并 由 数据 交换 网 转 接 美国 
的 DIALOG、ORBIT 系 统 ， 这 样 ， 我 国 就 可 以 在 北京 利用 通信 卫星 检索 
到 欧美 200 多 个 数据 库 的 几 十 万 篇 文献 。 





当时 ， 不 少 单位 建立 了 各 种 中 文 文献 库 ， 有 的 单位 研究 了 目 动 标 引 
和 自动 做 文摘 的 问题 。 全 国 科技 信息 部 门 配备 了 大 中 小 型 计算 机 ， 建 立 
各 种 科技 文献 数据 库 、 事 实数 据 库 、 数 值 数据 库 ， 其 中 ， 中 文科 技 文献 
数据 库 累 计 记录 量 约 为 150 万 条 。 





随 厦 互 联网 和 搜索 引擎 的 普及 ， 信 息 检 索 也 更 加 受到 普通 老百姓 的 
欢迎 ， 联 网 搜索 信息 已 经 成 为 老百姓 日 常生 活 的 一 部 分 内 容 。 


言 息 检索 系统 的 核心 工作 是 标 引 Gndexing) 。 所 谓 “ 标 引 ”， 就 是 
对 所 收集 的 文献 给 出 其 标识 引导 ， 如 文献 标题 、 作 者 名 、 分 类 号 、 主 题 
词 、 关 键 词 等 。 以 往 靠 人 工 标 引 ， 费 时 费力 ， 标 引 的 一 致 性 差 ， 使 标 引 
作业 全 部 或 部 分 实现 自动 化 的 过 程 ， 束 是 自动 标 引 (automatic 


indexing) 。 








早 在 1957 年 ， 卢 恩 (H.P. Luhn) 束 在 IBM 公 司 的 研究 刊物 上 发 表 了 
第 一 篇 关于 自动 标 引 的 文章 ， 题 目 叫做 “文献 处 理 机 械 化 编码 和 检索 用 
的 统计 学 方法 ”， 首 次 提出 了 基于 统计 的 文献 处 理 自动 化 系统 的 概念 。 
1958 年 ， 巴 森 代 尔 CP. B. Baxendale) 进行 了 自动 标 引 和 自动 文摘 的 研 
究 ， 提 出 了 从 文献 中 自动 抽取 代表 文献 内 容 的 词 和 句子 的 方法 。 





20 世 纪 60 年 代 ， 埃 德 蒙 森 CH. P. Edmundson) 、 厄 尔 (L. Earl) 分 
别 进 行 自动 标 引 试验 ， 萨 尔 顿 《〈G. Salton) 建立 了 自动 标 引 系统 
SMART， 进 行 了 长 期 的 试验 ， 取 得 了 丰富 的 实验 数据 。20 世 纪 70 年 
代 ， 瑞 国 、 德 国 等 西欧 国家 也 开始 了 自动 标 引 的 研究 ， 人 们 开始 注意 与 
目 动 标 引 有 关 的 句法 和 语义 问题 。20 志 纪 80 年 代 初 ， 东 方 汉 字 文 化 圈 的 
自动 标 引 研究 也 开始 活跃 起 来 ， 自 动 标 引 的 方法 进一步 多 样 化 ， 语 言 学 
方法 进一步 在 自动 标 引 中 得 到 应 用 ， 人 工 知 能、 模式 识别 、 专 家 系统 等 
新 技术 逐步 引入 自动 标 引 的 领域 。 











我 国 在 20 世 纪 70 年 代 末 期 开始 探讨 汉语 文献 的 自动 标 引 问题 , “七 
五 ?期 间 〈 即 “第 七 个 五 年 计划 ?期 间 ) 先后 建立 了 一 批 试验 性 的 自动 标 
引 系 统 。 如 上 海 交 通 大 学 王 永 成 等 研制 的 基于 汉字 部 件 词典 的 中 文 篇 名 
目 动 标 引 系统 ， 北 京 大 学 图 书馆 系 研制 的 基于 规则 和 词典 的 中 文 文献 自 
动 标 引 系 统 ， 中 国 软件 技术 服务 总 公司 吴 天 天 等 研制 的 基于 非 用 字 后 绥 
表 法 的 中 文 文献 自动 切 词 标 引 系统 〈“ 非 用 字 ? 是 指 那些 不 能 做 标 引 词 的 
字 ， 如 “其 、 起 、 且 、 首 ”等 ， 而 “用 他” 是 指 那 些 可 以 做 标 引 词 的 字 ， 抽 
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广义 的 信息 自动 检索 还 包括 自动 文摘 (automatic abstracting) 和 文 


献 自 动 分 类 (automatic classification) 等 内 容 。 


文摘 是 文献 内 容 要 点 的 简要 描述 或 指示 。 所 谓 目 动 文摘 ， 就 是 利用 





计算 机 自动 地 编制 和 生产 文摘 。 由 于 文献 量 的 急剧 增长 ， 合 格 的 文摘 员 
供不应求 ， 影 响 了 信息 报道 和 传递 的 及 时 性 ， 因 此 ， 学 者 们 开始 研究 自 
动 编制 文摘 的 问题 。 卢 恩 1958 年 发 表 了 第 一 篇 有 关 自 动 制 作文 献 文摘 的 
论文 ， 开 自动 文摘 研究 之 先河 ， 他 还 建立 了 自动 文摘 系统 ， 是 世界 上 第 
一 个 用 计算 机 编制 文摘 的 学 者 。 接 着 ，IBM 公 司 为 美国 陆军 谍报 工作 助 
理 参 谋 部 CACSD 开发 了 文摘 自动 编制 系统 ACSI-Matic， 并 投入 实 
用 。 此 外 ， 国 外 还 有 学 者 提出 了 采用 语义 网 络 和 基于 语言 结构 提示 信息 
的 自动 文摘 方法 。 








我 国 上 海 交 通 大 学 计算 中 心 在 IBM-5550 微 机 上 开发 出 一 个 自动 编 
制 中 文科 技 文献 文摘 的 试验 性 系统 。 这 一 系统 根据 巴 森 代 尔 提出 的 “大 
多 数 反 映 文献 主要 内 容 的 句子 往往 出 现在 段 首 或 段 尾 ” 以 及 埃 德 蒙 森 提 
出 的 “文献 的 篇 名 基本 上 能 反映 其 主题 内 容 ” 的 统计 性 结论 ， 把 包含 预 置 
关键 词 与 标题 关键 词 的 句子 从 文献 的 某 些 重要 部 分 中 选 出 作为 文摘 的 名 
子 ， 然 后 再 适当 地 把 这 些 句 子 组 织 成 文献 的 文摘 。 





目 动 编制 文摘 的 过 程 是 : 

QD 构造 文献 的 关键 词 词典 (包括 预 置 关 键 词 和 标题 关键 词 〉; 
包 从 文献 的 关键 词 中 选择 组 成 反映 该 文献 主题 的 文摘 句 ; 
由 文摘 句 组 成 文献 的 文摘 ; 

输出 文献 的 文摘 。 





目 动 编制 文摘 的 这 一 过 程 与 文摘 员 手 工 编制 文摘 的 过 程 大 致 相同 。 


这 个 试验 性 目 动 文摘 系统 取得 了 令 人 或 舞 的 结果 。 根 据 研究 报告 ， 
研究 人 员 曾 用 该 系统 对 随机 地 抽出 的 十 五 篇 文献 试 编 文摘 ， 友 现 其 中 





90% 的 文摘 名 与 作者 手工 编制 的 文摘 名 大同小异 ， 只 有 了 两、 三 篇 与 手工 
编制 的 文摘 差距 较 大 。 








目前 ， 上 自动 文摘 的 方法 基本 上 是 建立 在 统计 规律 的 基础 之 上 的 ， 要 
进一步 的 推动 目 动 文摘 方法 的 研究 ， 必 须 对 所 摘 文 献 进行 词汇 分 析 、 语 
法 分 析 和 语义 分 析 ， 并 对 结果 进行 综合 ， 这 些 都 需要 对 自然 语言 的 词 
汇 、 语 法 语义 规律 进行 深入 的 研究 ， 充 分 地 利用 自然 语言 计算 机 处 理 的 
新 成 果 和 新 方法 ， 使 自动 文摘 工作 实现 智能 化 。 




















广义 的 信息 自动 检索 的 另 一 内 容 是 文献 自动 分 类 ， 也 就 是 利用 计算 
机 对 一 批 作为 实体 或 对 象 的 文献 进行 分 类 。 文 献 自动 分 类 有 利于 文献 的 
快速 查找 。 统 计 实 验 表 明 ， 如 果 一 个 文献 集合 被 分 为 n 类 ， 则 其 碍 找 速 
度 平均 就 可 提高 n 倍 。 文 献 的 手工 分 类 是 一 项 繁琐 而 又 带 有 很 强 的 主观 
性 局 限 性 的 工作 ， 既 费时 又 费力 ， 因 此 ，20 世 纪 60 年 代 初 ， 国 外 就 开始 
了 文献 自动 分 类 的 研究 。 我国 上 海 交 通 大 学 计算 中 心 在 IBM-5550 微 机 
上 研制 了 一 个 试验 性 的 中 文科 技 文献 自动 分 类 系统 。 这 一 系统 根据 埃 德 
蒙 森 提出 的 “文献 篇 名 基本 上 能 反映 其 主题 内 容 ” 的 统计 结论 ， 采 用 文献 
篇 名 作为 原始 分 类 对 象 ， 以 加 权 的 题 中 关键 词 作为 分 类 的 基础 ， 统 计 分 
析 了 文献 篇 名 中 的 关键 词 ， 归 纳 出 大 约 300 个 基本 类 主题 词 ， 构 成 类 主 


题词 表 。 











文献 自动 分 类 的 过 程 是 : 





(从 文献 篇 名 中 自动 抽取 类 主题 词 ; 








@ 根 据 样 本 文献 构造 分 类 用 的 类 主题 词 表 ; 











根据 从 文献 中 抽出 的 类 主题 词 与 其 类 主题 词 表 决定 类 目 。 


当时 ， 用 户 利 用 这 一 系统 在 IBM-5550 微 机 上 对 一 篇 文献 进行 分 类 
所 需 的 时 间 不 到 一 秒 钟 ， 该 系统 对 上 海 图 书馆 《全 国 报刊 索引 》 收 录 的 
1 000 多 篇 有 关 计 算 机 的 文献 进行 自动 分 类 试验 ， 目 动 分 类 的 结果 与 人 
工分 类 的 结果 有 749% 是 相符 合 的 。 











现行 的 信息 自动 检索 系统 ， 大 多 数 都 是 检索 文献 目录 库 和 文摘 ， 这 
类 检索 系统 所 获得 的 信息 有 很 大 的 局 限 性 ， 如 采用 户 在 检索 之 后 ， 还 项 
望 获得 所 检索 出 记录 的 全 面 而 详细 的 信息 ， 往 往 还 要 按 检索 到 的 文献 索 
引号 ， 再 到 书库 中 去 进一步 翻阅 、 摘 引 大 量 的 原文 文本 ， 为 了 解决 这 个 
问题 ， 学 者 们 提出 了 全 文 信息 自动 检索 Cautomatic retrieval of full 
text) ， 简 称 全 文 检索 。 



































根据 文件 的 组 织 形 式 ， 数 据 存 贮 与 检索 技术 的 发 展 大 致 经 历 了 三 个 
阶段 。 


第 一 个 阶段 使 用 顺序 检索 方法 ， 文 件 组 织 只 有 一 个 主 文件 和 一 个 伍 
询 文件 ， 检 索 时 ， 主 文件 的 每 一 个 记录 《文献 本 号 ) 与 查询 文件 的 每 一 
个 记录 提问 式 ) 逐个 进行 比较 ， 然 后 成 批 输出 结果 。 这 是 一 种 典型 的 
批 处 理 方式 。 由 于 检索 速度 慢 ， 又 不 能 随时 改变 检索 的 策略 ， 这 种 顺序 
检索 方法 已 经 被 淘汰 。 











第 二 个 阶段 使 用 顺序 检索 与 倒 排 检索 相 结 合 的 检索 方法 ， 全 部 文件 
由 一 个 主 文 件 和 有 限 个 检索 点 生成 的 知 干 个 倒 排 文件 组 成 ， 处 理 方式 由 
批 处 理 方式 发 展 到 联机 检索 方式 ， 检 索 时 ， 用 户 分 别 要 提出 两 个 提问 
式 ， 第 一 个 提问 却 必 须 由 具有 倒 排 文件 的 检索 点 组 成 。 第 二 个 提问 式 由 
其 他 非 倒 排 文件 的 检索 点 组 成 。 这 种 检索 方法 的 缺点 是 : 快速 检索 点 很 
有 限 ， 没 有 检索 命令 语言 ， 如 末 第 一 个 检索 命中 的 文献 集 较 大 ， 则 第 二 
次 检索 就 要 花 较 多 的 时 间 。 











20 世 纪 70 年 代 末 期 ， 西 文 检索 技术 发 展 到 第 三 阶段 ， 这 一 阶段 文件 
的 组 织 特点 是 : 文件 记录 的 全 部 字段 都 可 以 倒 排 ， 主 文件 的 记录 采用 可 
变 长 存 贮 ， 并 且 使 用 效率 更 高 的 索引 文件 (如 VSAM，ISAM，B 树 
等 ) ， 用 户 可 对 任何 字段 、 子 字段 进行 快速 查找 ， 并 可 使 用 丰富 的 检索 
命令 语言 来 随时 修改 检索 策略 。 








随 看 计算 机 存 贮 设备 价格 的 降低 以 及 检索 拉 术 的 进步 ， 产 生 了 全 文 
检索 。 全 文 数 据 库 的 建 并 和 全 文 检索 功能 的 实现 是 全 文 检索 的 两 大 技术 
支持 。 全 文 数据 库 一 般 由 一 个 变 长 的 主 文 件 和 一 个 索引 文件 控制 下 的 倒 
排 文 件 组 成 ， 索 引文 件 和 倒 排 文件 在 物理 上 是 分 开 的。 检索 时 ， 由 索引 
文件 指 问 倒 排 文件 ， 倒 排 文 件 指 癌 主 文件 。 








主 文件 中 一 般 定 义 了 以 下 几 种 数据 类 型 的 字段 : 


一 一 文本 型 字段 Ctext) : 适用 于 由 硝 干 段落 和 人 句子 组 成 的 文本 ， 
如 普通 书信 、 论 文 、 文 摘 、 产 品 说 明 书 等 。 





短语 型 字段 (phrase) : 适用 于 由 奉 干 段 沙 或 句子 组 成 的 文 
本 ， 如 论文 标题 、 书 名 、 人 人 名、 地址、 产品 名 等 。 





一 一 数字 型 字段 Cnumber) : 适用 于 数值 信息 ， 每 一 个 数字 可 分 配 
一 个 字段 。 


一 一 日 期 型 字段 (date) 。 


一 一 时 间 型 字段 Ctime) 。 








全 文 索 引 与 全 文 检索 主要 是 针对 文本 型 字段 和 短语 型 字段 而 言 ， 后 
三 种 字段 则 按 整 个 字段 或 子 字 段 被 索引 。 





在 全 文 检索 系统 中 ， 文 本 的 每 一 个 单词 都 可 以 作为 索引 词 标 引 和 检 
索 ， 检 索 时 不 再 受 主 题词 的 限制 ， 打 破 了 主题 词 的 束缚 ， 从 而 可 对 原文 
的 整个 文本 中 的 任何 词语 进行 检索 ， 扩 展 了 用 户 碍 询 的 目 由 度 ， 为 大 容 
量 和 大 范围 的 数据 资料 的 检索 提供 了 有 效 的 工具 。 目 前 ， 随 着 计算 机 软 
件 技术 的 进步 ， 全 文 检索 系统 的 建 并 有 了 极为 民 好 的 条 件 。 全 文 检索 系 
统 的 存 迪 内 容 ， 既 包括 文献 的 全 文 ， 义 包括 文摘 以 及 著录 事项 (论文 标 
题 、 书 名 、 人 人 名、 地址、 产品 名 、 数 字 、 日 期 、 时 间 等 ) ， 可 使 用 户 迅 
速 准确 地 从 浩如烟海 的 文献 中 ， 直 接 获 取 有 关 记 载 或 论述 的 文字 ， 从 而 
以 最 少 的 努力 得 到 他 们 所 和 希望 的 实质 性 的 数据 。 








近年 来 ， 国 外 全 文 数 据 库 的 数目 不 断 增 加 。 例 如 ， 美 国 的 DIALOG 
言 恩 检 索 系 统 在 1983 年 的 228 个 数据 库 中 ， 全 文 检 索 数 据 库 仅 有 7 个 ， 占 
总 量 的 3%， 至 今 为 止 ，DIALOG 系 统 的 数据 库 总 量 为 345 个 ， 其 中 全 文 
检索 数据 库 为 86 个 ， 占 总 量 的 25%。 


我 国 的 全 文 检索 研究 开始 于 20 世 纪 80 年 代 中 期 。1986 年 ， 武 汉 大 学 
开始 接受 国家 教委 文科 博士 点 科研 项 目 “ 湖 北 省 地 方志 全 文 检索 系统 ”， 
建 并 了 “湖北 省 地 方志 大 事 记 ”和 “中 国人 民 解 放 军 大 事 记 ” 两 个 全 文 数据 
库 。 接 着 ， 北 京 文献 服务 处 “BDS) 研制 了 “基于 自然 语言 处 理 的 中 文 
言 奶 检索 和 处 理 系统 CIRPON”， 用 于 BDS 的 文献 自动 标 引 和 文摘 自动 处 
理 ， 文 献 标 引 的 但 全 率 和 但 准 率 大 体 上 相当 于 手工 标 引 的 质量 。1990 年 
初 ， 北 京 信息 工程 学 院 与 人 民 日 报社 合作 开发 了 全 文 检索 系统 Biti 
FTRS (Full Text Retrieval System 的 简称 ) ,在 人 民 日 报 开 始 使 用 ， 并 已 
实现 了 商品 化 。 山 西 大 学 计算 机 科学 系 使 用 了 上 自动 切 词 、 上 自动 分 类 、 上 自 
动词 性 标注 等 自然 语言 处 理 技术 ，1991 年 研制 了 “中 文 全 文 检索 软件 系 
统 ”， 现 已 被 南京 金陵 石化 总 公司 精细 石化 文献 检索 系统 和 山西 省 政府 
办 公 厅 和 太原 市 政府 办 公 厅 信息 处 理 系 统 采 用 。 电 子 部 计算 机 与 微 电 子 





























技术 发 展 研究 中 心 CCCIDO. 中 文 信息 处 理 开放 实验 室 (CIPOL ) 研制 
了 中 文 全 文 检索 系统 TIR， 该 系统 可 以 对 各 种 文本 型 资料 和 某 些 数据 库 
的 文件 进行 操作 ， 避 免 了 传统 检索 系统 只 能 检索 主题 词 ， 而 对 主题 词 之 
外 的 信息 无 能 为 力 的 局 限 。 该 系统 现在 能 够 检索 一 切 输入 文本 ， 对 原始 
文献 里 的 字符 无 特别 限制 ， 可 以 处 理 各 种 通用 的 字符 。 此 外 ， 上 海 交 通 
大 学 建立 了 * 法 律 条 目 全 文 数据 库 ?， 陕 西 省 中 医 研究 院 建立 了 中 医 经 典 
ee GRO . (XO . CZ) . CEA) BOXER. LOB 
中 医 研 究 所 建立 了 《伤寒 论 》、《 人 金 匮 要 略 》、《 脾 胃 论 》 等 20 余 本 中 
医 古籍 的 全 文 数据 库 ， 深 圳 大 学 建立 了 古典 文学 名 著 《 红 楼 梦 》 的 全 文 
数据 库 。 所 有 这 些 全 文 数据 库 都 对 用 户 提供 了 有 效 的 检索 服务 ， 也 为 汉 
字 全 文 检 索 系统 的 进一步 发 展 芮 定 了 基础 。 














全 文 文本 检索 是 西 文 信息 检索 软件 普遍 实现 的 基本 功能 。 瑞 典 的 
PROLOG 公 司 研制 的 TRIP 全 文 检索 软件 具有 全 面 的 全 文 文本 检索 功能 。 
1988 年 ， 中 国 科技 信息 研究 所 与 该 公司 合作 ， 实 现 了 TRIP 系 统 的 汉化 。 
汉化 TRIP 系 统 的 特点 是 : 以 每 个 汉字 单字 切 分 (最 简单 的 汉语 书面 语 自 
动 切 分 ) 实现 全 文 检 索 功 能 ， 可 按 字 段 作者、 标题 、 分 类 、 日 期 、 标 
引 词 等 ) 检索 ， 可 用 命令 方式 和 荣 单 方式 检索 ， 可 在 主题 词 控制 下 进行 
检索 。 这 一 系统 的 缺点 是 空间 开销 偏 高 ， 不 能 自动 抽出 关键 词 。 目 前 这 
一 系统 只 能 在 VAX/VMS 计 算 机 上 运行 ， 有 一 定 的 局 限 性 。 该 系统 已 在 
中 国 科技 信息 研究 所 用 于 建立 “中 国学 术 会 议论 文 数据 库 ? 和 “中文 科技 
期 刊 联合 目录 系统 ”， 又 被 北方 交通 大 学 用 来 为 经 济 日 报 建立 了 “经 济 日 
报 新 闻 资 料 检索 系统 ”。 汉 化 TRIP 全 文 检索 系统 的 开发 和 应 用 ， 为 中 文 
全 文 文本 的 检索 提供 了 可 行 的 技术 途径 和 有 益 的 实践 经 验 。 如 果 以 汉化 
TRIP 全 文 文本 检索 系统 为 基础 ， 在 系统 的 存 贮 部 分 适当 地 增加 关键 词 自 
动 抽 词 功能 ， 在 系统 的 检索 部 分 适当 增加 后 控 主 题词 表 的 管理 和 检索 功 
能 ， 将 大 大 地 提高 这 一 软件 对 中 文 全 文 检索 的 适应 能 























随 着 大 量 文 献 的 出 版 和 互联 网 的 普及 ， 文 档 的 数量 与 日 俱 增 。 以 互 
联网 上 的 网 页 文档 为 例 ， 据 统计 ，1995 年 全 世界 大 约 有 5 千 万 个 页 面 文 
档 ，1997 年 增加 到 3 亿 2 干 万 个 页 面 文档 ，1999 年 增加 到 8 亿 个 页 面 文 
档 ，2000 年 增加 到 10 亿 个 页 面 文档 。 而 且 ， 大 多 数 文档 数据 都 是 无 序 
的 、 非 结构 化 的 ， 文 档 数 据 中 不 仪 包含 文字 信息 ， 而 且 还 包含 图 像 信 
息 、 图 形 信息 、 音 频 信 息 、 视 频 信 息 。 文 档 数 量 的 急剧 增加 和 多 样 化 是 
对 于 信息 检索 技术 的 严重 挑战 。 


























为 了 匹配 索引 的 碍 询 表达 形式 并 检索 出 最 相关 的 文档 ， 信 息 检 索 系 
统 通常 采用 以 下 三 种 基于 统计 的 匹配 技术 : 布尔 模型 (Boolean Model, 
简称 BM) 、 向 量 空 间 模型 (Vector Space Model， 简 称 VSM) 、 概 率 模 
型 (Probabilistic Model， 简 称 PM) . 


在 布尔 模型 中 ， 奏 询 表 述 为 用 布尔 逻辑 运算 符 〈 如 “or，not， 
and” 等 ) 连接 起 来 的 关键 词 。 由 于 其 语义 上 的 准确 性 ， 使 得 这 种 方法 在 
计算 上 有 着 效率 和 速度 上 的 优势 。 许 多 商业 机 构 都 采用 了 这 个 方法 。 














但 是 这 种 方法 在 文档 检索 中 采取 的 是 二 元 决定 论 ， 检 索 系 统 只 外 
决定 检索 对 象 与 文档 是 相关 还 是 不 相关 ， 从 而 使 其 无 法 给 用 户 一 个 分 
更 为 合理 的 答案 。 例 如 ， 如 果 把 两 个 关键 词 用 “and”" 运 算 符 连接 起 来 ， 
就 意味 着 检索 出 的 文档 必须 同时 售 有 这 两 个 关键 词 。 由 于 布尔 模型 是 基 
于 精确 匹配 的 ， 用 户 很 难 表达 复 茶 的 检索 要 求 ， 常 常 为 怎样 将 复杂 的 信 
恩 需 求 转换 成 合适 的 关键 词 和 布尔 逻辑 运算 符 而 感到 困惑 。 


EU 
级 

















在 同 量 空间 模型 中 ， 文 档 和 检索 查询 通常 使 用 n 维 空间 中 的 同 量 
(vector) 表示 ， 检 索 系 统计 算 查 询 回 量 和 所 有 文档 向量 之 则 的 相似 
度 ， 并 且 按 照相 似 度 的 大 小 对 文档 进行 排序 分 级 ， 最 后 返回 给 用 户 。 





器 量 空间 模型 和 布尔 系统 的 主要 区 别 在 于 ， 癌 量 空 间 模 型 能 够 根据 
文档 与 待 得 询 信息 的 相关 程度 来 排序 和 分 级 ， 从 而 给 出 参考 性 更 强 的 奉 
询 结 果 。 














问 量 空间 模型 认为 ， 与 查询 最 为 相关 的 文档 是 那些 在 用 词 规律 方面 
与 查询 类 似 的 结果 。 在 问 量 空间 中 ， 这 种 相关 性 可 以 通过 文档 回 量 与 查 
询问 量 之 间 的 距离 的 大 小 来 衡量 ， 如 果 东 个 文档 回 量 与 查询 癌 量 之 间 的 
距离 最 小 ， 就 可 以 认为 这 个 文档 与 查询 最 为 相关 。 按 照 文 档 向 量 与 查询 
器 量 之 间距 离 的 大 小 进行 分 级 排序 ， 把 与 查询 最 相关 的 文档 排 在 最 前 
面 ， 这 样 ， 就 可 以 根据 据 用 户 的 要 求 ， 返 回 从 完全 不 匹配 到 部 分 匹配 的 
查询 结果 。 






































相似 性 的 计算 采用 的 是 TF IDF 加 权 法 。 


TF 指 的 是 检索 词 频率 (Term Frequency, HRTF) ， 它 表示 检索 词 
在 多 大 程度 上 代表 了 文档 的 内 容 ， 如 果 某 个 检索 词 的 频率 越 大 ， 束 说 明 
这 个 检索 词 较 好 地 反映 了 文档 的 内 容 ， 检 索 词 频率 属于 文档 的 内 部 信 
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IDF 则 是 逆向 文档 频率 〈Inverse Document Frequency) ， 它 表示 文 
档 聚 类 与 整个 聚 类 之 间 的 相差 的 程度 。 


从 语言 学 的 角度 来 看 ， 我 们 可 以 把 文档 中 所 有 的 词 分 为 非 焦点 词 和 
焦点 词 两 类 。 所 谓 非 焦点 词 ， 束 是 那些 在 所 有 文档 中 都 可 能 出 现 ， 甚 至 
在 所 有 文档 中 都 具有 相似 的 分 布 规律 的 词 ， 在 信息 检索 中 ， 这 样 的 词 对 
于 衡量 文档 之 间 的 相似 性 意义 不 大 。 所 谓 焦点 词 ， 就 是 那些 出 现 范围 比 
较 狭 罕 的 词 ， 它 们 在 所 有 的 文档 中 分 布 不 均 飞 ， 在 有 的 文档 中 出 现 频率 
高 ， 而 在 另外 的 一 些 文档 中 的 出 现 频 率 则 很 微乎其微 ， 这 一 类 焦点 词 对 











于 衡量 两 个 文档 是 否 相关 是 很 有 价值 的 。 对 于 文档 而 言 ， 焦 点 词 显 然 比 
非 焦 点 词 在 信息 上 更 加 具有 价值 。 我 们 可 以 使 用 文档 频率 (Document 

Frequency, HERDE) 来 描述 检索 词 在 文档 中 出 现 频 率 的 高 低 的 这 个 特 
征 ， 如 果 一 个 检索 词 的 文档 频率 越 低 ， 则 表明 它 很 可 能 属于 焦点 词 ， 在 
言 恕 检索 中 具有 较 高 的 价值 ， 如 果 一 个 检索 词 的 文档 频率 越 蜗 ， 则 表明 
它 和 可 能 属于 非 焦点 词 ， 在 信息 检索 中 价值 不 大 。 在 实际 计算 文档 权重 
的 时 候 ， 为 了 计算 上 的 方便 ， 我 们 不 采用 “文档 频率 "DF， 而 采用 “ 逆 问 
SCRA HE” IDF 


























“ 道 向 文档 频率 "IDF 的 计算 公式 是 : 
N 
IDF = log| | 
DF 
其 中 ，N 是 文档 库 中 文档 的 总 数 ，DF 是 文档 频率 。 用 DF 来 除 N 再 取 


对 数 ， 得 到 的 IDF 恰 好 能 够 反映 检索 词 在 文档 中 出 现 频 京 的 高 低 的 这 个 
特征 。 











如 果 一 个 检索 词 仅 只 出 现在 一 个 文档 中 ， 那 么 ， 我 们 有 


N N 
IDF = lo P = lo Ed = loe N 
g DF 5 1 5 


这 时 ，IDF 的 值 很 大 ， 权 重 也 最 大 ; 





如 末 一 个 检索 词 出 现在 所 有 的 文档 中 ， 那 么 ， 我 们 有 


N N 
IDF = dlog( ——J = lo (—-) = bo 1=0 
5 DF B N g 


这 时 ，IDEF 的 值 为 零 ， 权 重 最 小 。 


在 信息 检索 中 ， 我 们 采用 检索 词 频率 TF 与 逆向 文档 频率 IDF 的 乘积 
TF*IDF 进 行 加 权 ， 这 就 是 TF*IDF 加 权 法 。 这 种 加 权 法 综合 地 考虑 了 检 
索 词 频率 和 逆向 文档 频率 ， 这 是 向 量 空间 模型 中 一 种 行 之 有 效 的 加 权 方 
法 。 





向 量 空间 模型 的 优点 在 于 : CODO 由 于 采用 了 加 权 法 ， 提 高 了 信息 
检索 的 效率 ; (2) 根据 相关 程度 得 出 的 分 级 文档 ， 提 供 了 从 全 匹配 到 
部 分 匹配 的 查询 结 








问 量 空间 模型 的 数学 形式 简洁 ， 计 算 速 度 快 ， 在 信息 检索 中 得 到 三 
泛 的 使 用 。 


概率 模型 是 一 种 基于 概率 论 而 建立 的 查询 和 文档 的 形式 化 模型 。 这 
种 概率 模型 假定 有 一 个 理想 的 答案 集 ， 我 们 能 根据 这 个 理想 的 答案 集 ， 
检索 出 与 之 最 为 接近 的 一 组 文档， 作为 检索 的 结果 。 在 概率 模型 中 ， 碍 
询 过 程 可 以 想象 成 一 个 对 理想 答案 集 属性 的 描述 过 程 ， 而 结果 的 属性 则 
由 索引 特征 的 语义 构成 。 








但 是 ， 在 使 用 概率 模型 的 时 候 ， 当 用 户 开 始 碍 询 时 并 不 知道 理想 答 
案 集 的 属性 有 哪些 ， 所 以 需要 先 对 属性 值 进行 估计 。 


概率 模型 的 主要 优点 是 检索 到 的 所 有 文档 是 根据 相关 概率 排 友 的 。 
其 主要 的 不 足 是 : COD 系统 需要 预先 对 相关 和 不 相关 的 文档 之 间 的 关 
别 有 一 个 佑 值 。《〈2) 这 个 方法 并 没有 考虑 到 文档 内 部 检索 词 的 频率 特 
征 。 


除了 上 述 三 种 主要 的 理论 模型 以 外 ， 还 有 许多 其 他 的 改进 方法 。 例 


如 ， 粗 糙 集 模型 、 扩 展 的 布尔 模型 、 贝 叶 斯 网 络 模型 、 推 理 网 络 模型 、 
信念 网 络 模型 、 潜 在 语义 索引 模型 〈Latent Semantic ”Indexing， 人 简称 
LSI) 5$. APAR. 


言 恩 检索 系统 不 可 能 把 所 有 相关 的 文档 都 检索 出 来 ， 也 不 能 保证 检 
索 出 来 的 所 有 结果 都 与 用 户 的 碍 询 意 岁 有关。 因此 ， 需 要 对 信息 检索 系 
统 进行 评测 。 








言 息 检 索 系 统 的 评价 指标 主要 有 : 准确 率 或 查 准 率 (precision) , 
召回 率 或 查 全 率 (recall) ， 判 误 率 (fallout) 以 及 F 系 数 (F- 


measure) 。 





准确 率 或 查 准 率 描 述 系统 返回 的 检索 结果 中 究竟 有 多 少 文档 是 真正 
相关 的 ， 也 被 称 为 正确 度 Caccuracy) ， 用 P 来 表示 。 准 确 率 或 查 准 率 由 
下 面 的 公式 来 计算 : 








quio p = 检索 结果 中 与 查询 /检索 结果 中 
相关 的 文档 数 ， 的 文档 总 数 
召回 率 或 查 全 率 描述 在 文档 库 所 有 相关 的 文档 中 究竟 有 多 少 文档 被 
系统 检索 出 来 ， 它 是 对 系统 从 所 有 的 文档 中 抽取 了 多 少 相 关 信 息 的 度 
量 ， 也 是 对 系统 的 履 盖 面 (coverage) WEE, ARKH. AEX 
查 全 率 由 下 面 的 公式 来 计算 : 


索 结 果 中 与 查询 / 文档 库 中 与 查询 
相关 的 文档 数 / 相关 的 文档 总 数 

判 误 率 插 述 文档 库 中 被 错误 地 检索 出 来 的 所 有 不 相关 的 文档 数 ， 它 
古 对 系统 忽略 文档 中 错误 信息 的 能 力 进行 度量 的 系数 ， 误 判 率 由 下 面 的 
公式 来 计算 : 














SS. 
召回 率 R= 








判 误 率 - 念 索 结果 中 与 查询 文档 中 所 有 与 文 档 
不 相关 的 文档 数 / 不 相关 的 文档 数 
准确 率 和 召回 率 之 间 并 不 互相 独立 ， 而 是 相互 制约 的 。 如 果 想 增加 
召回 率 ， 就 必须 多 返回 一 些 检 索 结 果 ， 以 便 使 检索 结果 中 多 包含 一 些 相 
天 的 文档 ， 这 往往 会 导致 准确 率 的 下 降 。 如 果 想 增加 准确 率 ， 就 必须 限 
制 检索 相关 性 的 条 件 ， 使 得 一 些 相关 的 文档 被 排除 出 去 ， 这 往往 会 导致 
召回 率 的 下 降 。 





在 这 种 情况 下 ， 我 们 可 以 使 用 准确 紊 和 召回 率 相 结合 的 度量 系数 来 
评测 信息 检索 系统 的 性 能 ， 这 个 系数 叫做 F 系 数 。 在 F 系 数 中 ， 利 用 参数 
B 来 平衡 准确 率 P 和 召回 率 R。F 系 数 由 下 面 的 公式 来 计算 : 


Pa (B +1)PR 


BPR 


在 这 个 公式 中 ， 当 等 于 1 时 ， 表 示 我 们 给 准确 率 和 召回 率 相同 的 权 
重 。 当 B 大 于 1 时 ， 表 示 我 们 偏爱 准确 率 ， 而 当 B 小 于 1 时 ， 表 示 我 们 偏爱 
召回 率 。 





在 一 般 情况 下 ， 我 们 应 当 公平 地 对 待 准确 率 和 召回 紊 ， 给 它们 相同 
的 权重 ， 所 以 ， 我 们 通常 令 B 等 于 1， 这 样 ， 上 面 的 公式 变 为 如 下 的 形 
式 : 


2PR 
F — 


z] 
P P+R 
这 是 一 个 简化 了 的 计算 F 系 数 的 公式 。 








为 了 强盛 后 续 的 研究 ， 美 国 的 一 些 机 构 举 办 了 扩展 信息 检索 测试 和 
比较 的 项 目 ， 其 中 最 有 名 的 是 文本 检索 会 议 (Text Retrieval 
Conference， 简 称 TREC) . 





TREC 源 自 1991 一 1998 年 的 TIPSTER 项 目 。 该 项 目 包 括 文本 检测 ， 
言 恕 提取 和 文本 摘要 三 个 技术 领域 。 文 本 检测 强调 系统 对 用 户 所 需 文件 
类 型 的 定位 和 检索 能 力 ， 不 管 是 静态 文本 还 是 动态 数据 流 。1992 年 ， 美 
国家 标准 与 技术 委员 会 (National Institute of Standards and 
technology， 简 称 NIST) 和 美国 国防 高 级 技术 研究 局 (Defense 
Advanced Research Projects Agency， 简 称 DARPA ) 举办 了 首次 TREC 大 
会 。TREC 的 最 初 目的 就 是 为 TIPSTER 项 目的 文本 检测 开发 评测 技术 ， 
其 重点 是 为 了 处 理 大 型 英语 文本 语 料 。 近 年 来 ，TREC 被 推广 到 汉语 、 
日 语 以 及 欧洲 其 他 语言 。 至 于 其 他 的 语言 ， 如 塔 米尔 语 和 马 来 语 则 可 能 
会 继续 为 路 语言 信息 检索 提供 更 大 的 发 展 空间 。 现 在 ， 有 许多 欧洲 组 织 
和 研究 所 也 采用 了 上 述 标准 。 例 如 ， 跨 语言 评估 论坛 (Cross-Language 
Evaluation Forum， 简 称 CLEF)。 














近来 ， 足 语言 和 多 语言 信息 检索 技术 也 有 了 国际 化 发 展 的 倾 癌 ， 详 
细 情 况 ， 可 参看 http://www.galileo.iei.pi.cnr.it/DELOS/CLEF/clef.html。 
自 2000 年 开始 的 DARPA 的 TIDES (Translingual Information Detection, 
Extraction and Summarization) 项 目 在 信息 检索 和 描述 过 程 中 运用 了 语 
言 学 和 非 语言 学 的 方法 ， 这 些 方法 对 多 语言 信息 的 获得 起 了 很 大 的 推动 
VERA. 














第 二 证 ”信息 目 动 检索 与 目 然 语 吝 
处 理 拉 术 


有 的 学 者 指出 ， 目 前 信息 自动 检索 系统 目前 正 疝 智能 化 方 回 发 展 ， 
有 必要 进一步 采用 自然 语言 处 理 技术 来 改进 自动 信息 检索 的 效果 。 























例如 ， 中 文 的 全 文 检 索 系 统 有 的 按 字 检索 ， 有 的 按 词 检 索 。 以 词 作 
为 检索 的 基本 单元 ， 标 引 与 检索 的 着眼 点 是 体现 相对 独立 完整 概念 的 
词 ， 比 较 符 合 人 们 的 思维 习惯 。 从 上 自然 语言 处 理 的 角度 来 看 ， 信 息 检索 
系统 既然 是 以 概念 为 基本 单位 的 系统 ， 而 概念 在 自然 语言 中 的 代表 应 该 
是 词 而 不 是 字 ， 有 的 汉字 本 里 并 不 能 直接 表示 完整 的 概念 ， 例 如 ,“ 蜂 
蛛 * 这 个 单词 中 的 汉字 “ 蜂 *"， 束 是 不 能 表达 完整 的 概念 ， 它 只 有 与 为 一 
个 汉字 “ 蛛 * 结 合 起 来 ， 才 能 表达 完整 的 概念 。 又 如 ， 用 户 想 检索 与 单 
词 “ 目 的 ”相关 的 信息 ， 如 果 只 是 单独 根据 汉字 “ 目 ”* 和 汉字 “的 ”来 检索 ， 
但 准 率 将 会 大 大 地 降低 。 因 此 ， 从 自然 语言 处 理 的 原理 来 看 ， 应 该 按 词 
来 进行 检索 ， 而 不 是 按 字 来 进行 检索 。 当 然 ， 按 字 来 进行 检索 ， 具 有 实 
现 方 法 人 简单、 但 全 率 高 等 优点 ， 但 是 ， 随 着 数据 库容 量 的 增加 ， 标 引 量 
急骤 上 升 ， 耗 这 的 时 间 开 销 和 空间 开销 都 很 大 ， 检 索 的 速度 也 比较 低 ， 
如 采 按 词 来 检索 ， 通 过 对 检索 词语 的 后 控 处 理 ， 就 可 以 大 大 地 提高 检索 
效率 ; 另外， 在 全 文 检索 系统 中 ， 单 词 的 切 人 分， 同义词、 反义词、 相关 
词 、 成 语 、 缩 略语 的 规范 和 控制 ， 都 要 借助 于 词 表 ， 投 词 来 进行 检索 才 
行 得 通 ;， 此 外 ， 在 建造 领域 知识 库 和 策略 规则 时 ， 也 只 能 按 词 来 检索 ， 
才 有 一 个 坚实 的 语言 学 理论 基础 。 如 果 按 词 来 检索 ， 就 首先 要 使 用 上 自然 
语言 处 理 技术 对 汉语 的 文本 进行 自动 切 词 (word ^ segmentation) ， 例 
如 ， 要 检索 “和 服 ” 这 个 关键 词 ， 如 果 不 切 分 汉语 文本 ， 很 可 能 会 得 






































出 “工作 方法 和 服 ASE BORER eS TIS WR ARs 如 果 进 行 
了 自动 切 词 ， 就 可 以 避免 这 样 的 错误 。 因 此 ， 在 信息 检索 中 ， 使 用 自然 
语言 处 理 的 原理 和 技术 是 很 有 必要 的 。 


又 如 ， 在 信息 目 动 检索 系统 中 ， 同 一 个 词 可 能 有 不 同 的 语义 和 表达 
方法 ， 而 相同 的 概念 可 用 不 同 的 词 来 表达 ， 因 此 ， 有 必要 使 用 语言 学 知 
识 ， 根 据 系统 处 理 领 域 的 不 同 ， 建 立 起 同义词 、 近 义 词 、 反 义 词 的 关系 
来 ， 这 实际 上 就 是 要 通过 概念 及 其 语义 关系 组 成 概念 语义 词典 。 这 样 ， 
用 户 在 进行 检索 时 ， 就 可 以 不 必 考 虑 与 所 要 表达 的 概念 有 关 的 一 切 词 ， 
系统 会 根据 检索 的 入 口 词 ， 自 动 地 在 概念 语义 词典 中 调 出 与 之 有 关 的 
词 ， 从 而 提高 信息 检索 系统 的 效用 。 


























再 如 ， 文 献 语言 研究 的 深度 对 于 信息 上 自动 检索 的 效率 也 有 很 大 的 影 
啊 。 在 词汇 方面 ， 如 果 深 入 地 分 析 文 献 的 主题 内 容 ， 从 文献 中 抽出 足够 
的 检索 词 ， 文 件 标 引 的 范围 就 比较 大 ， 检 索 时 束 容 易 把 相关 主题 的 文献 
碍 出 来 ， 从 而 提高 信息 检索 系统 的 查 全 率 。 如 果 突 出 检索 词 的 专 指 性 ， 
使 其 能 准确 地 揭示 文献 的 主题 内 容 ， 检 索 时 束 不 必 再 到 其 上 位 词 或 其 他 
专 指 性 较 低 的 词 中 去 碍 找 ， 从 而 提高 信息 自动 检索 系统 的 得 准 率 。 在 句 
法 语义 方面 ， 如 果 从 语言 学 的 角度 揭示 了 被 检索 文章 的 主题 中 各 个 检索 
词 的 句法 语义 关系 ， 束 不 易 造成 误 检 。 









































目前 ， 计 算 机 信息 检索 一 般 采 用 逻辑 式 来 提问 ， 这 给 用 户 带 来 许多 
不 便 ， 因 为 许多 用 户 不 熟悉 逻辑 式 这 样 的 不 目 然 的 提问 方式 。 如 果 计 算 
机 能 理解 自然 语言 的 含义 ， 让 用 户 直 接 采 用 自然 语言 提问 ， 建 立 人 机 自 
然 语言 接口 ， 束 可 以 大 大 地 方便 用 户 ， 十 分 有 利于 计算 机 信息 检索 的 推 
广 和 使 用 。 而 要 用 上 自然 语言 直接 提问 ,就 必须 把 自然 语言 的 句法 和 语义 
加 以 形式 化 ， 深 入 地 进行 目 然 语言 理解 系统 的 研究 。 














因此 ， 有 的 专家 认为 ， 在 信息 自动 检索 系统 中 ， 应 当 充分 地 使 用 语 
言 学 的 知识 ， 采 用 自然 语言 处 理 的 技术 。 他 们 指出 ， 如 果 能 在 信息 自动 
检索 系统 中 ， 充 分 地 利用 自动 分 词 、 自 动词 性 标注 、 自 动 句法 分 析 、 自 
动 语义 分 析 等 自然 语言 处 理 技术 ， 就 可 以 提高 信息 自动 检索 的 智能 化 水 
Y. 














许多 应 用 于 信息 检索 的 自然 语言 处 理 方 法 都 是 使 用 语言 学 的 技术 
《如 词组 、 实 词 、 概 念 等 ) 来 获得 更 好 的 索引 词 项 。 这 些 方法 被 称 为 语 
言 学 驱动 的 标 引 方法 CLinguistically Motivated Indexing, fai#KLMI) 。 
引入 语言 学 驱动 的 标 引 方法 ， 就 有 了 更 多 可 以 比较 的 特征 ， 这 是 一 个 可 
行 的 递增 式 方法 。 














有 的 学 者 指出 ， 引 入 一 些 简单 搭配 的 特征 会 使 信息 检索 的 效率 提高 
1096. 











有 的 学 者 通过 实验 证 明 ， 把 基于 回 量 表示 的 词义 排 蛟 算法 应 用 于 辐 
量 空间 模型 ， 根 据 上 下 文 来 进行 词义 排 上 疏 ， 可 以 把 信息 检索 的 工作 效率 
提高 7% 一 14%。 





然而 ， 近 年 来 的 研究 表明 ， 这 样 的 看 法 未 必 完 全 正确 。 文 本 信息 检 
索 与 自然 语言 处 理 之 间 究 竟 能 否 相互 促进 ， 这 个 问题 引起 了 学 术 界 的 争 


论 。 











在 对 文本 材料 的 处 理 上 ， 文 本 信息 检索 和 上 自然 语言 处 理 表面 上 有 很 
多 共通 之 处 ， 但 实质 上 二 者 却 有 很 大 的 不 同 。 








言 恩 检索 关注 的 是 如 何 高 效 地 访问 一 个 大 规模 的 文本 ， 筷 关注 的 重 
点 是 计算 机 的 访问 速度 和 模型 的 索引 效率 。 而 目 然 语言 处 理 则 关注 文本 
的 分 析 、 表 示 或 生成 ， 然 后 调用 不 同 的 计算 工具 来 实现 语音 、 词 汇 、 句 








法 、 语 义 以 及 语 篇 等 不 同 层 面 上 的 语言 处 理 。 





现 阶段 存在 很 多 在 不 同 语言 层面 把 计算 语言 学 的 技术 应 用 在 信息 检 
索 上 的 答 试 。 但 是 这 种 尝试 的 难度 在 于 : 在 已 有 信息 检索 系统 中 加 入 的 
任何 形式 化 的 语言 学 信息 必须 有 足够 的 鲁 棒 性 ， 使 得 加 入 数 以 兆 位 计算 
的 语言 学 信息 不 会 导致 系统 的 性 能 下 降 。 

















从 我 们 前 面 阐述 的 信息 检索 系统 的 复杂 的 过 程 可 以 看 出 ， 自 然 语 言 
处 理 技术 对 于 信息 检索 系统 的 贡献 并 不 是 特别 明显 的 。 这 些 目 然 语 言 处 








理 技术 并 不 能 用 来 改善 信息 检索 中 的 查询 效果 ， 从 而 提高 匹配 技术 ， 即 
使 在 信息 检索 的 条 些 子 过 程 中 ， 也 难以 到 达 这 样 的 要 求 。 由 于 已 有 的 信 
恩 检 索 系 统 都 是 根据 统计 方法 建立 的 ， 要 在 信息 检索 的 后 续 过 程 中 加 入 
一 些 表示 语言 规则 的 符号 指令 并 不 是 一 件 轻而易举 的 事情 。 最 后 ， 信 息 
检索 的 标准 评测 方法 倾 回 于 统计 意义 上 的 提高 ， 而 不 是 关注 检索 质量 的 
提高 ， 所 以 如 何 评测 这 些 结果 也 是 一 个 很 棘手 的 问题 。 























第 三 节 语种 辨认 与 跨 语 言 信息 检 
索 


欧盟 委员 会 在 2005 年 11 月 22 日 公布 了 一 个 题 为 “实现 多 语系 策略 ?的 
官方 报告 ， 这 份 报告 的 题记 使 用 了 斯 洛 伐 殉 的 一 句 谚 语 :“ 你 懂得 的 语 
言 越 多 ， 你 就 越 像 一 个 人 ”。 这 人 句 谚语 成 为 了 该 报告 的 基调 。 可 见 多 语 
言 的 使 用 已 经 成 为 欧盟 的 一 个 众人 瞩目 的 大 问题 。 


而 多 语言 的 使 用 ， 不 同 语言 之 间 的 翻译 、 检 索 和 信息 抽取 就 非常 重 
要 了 ， 多 语言 信息 处 理 的 需求 会 变 得 越 来 越 迫 切 和 尖锐 。 


随 着 信息 拉 术 的 进步 和 网 络 的 发 展 ， 互 联网 Web) 逐渐 变 成 一 个 
多 语言 的 网 络 世 界 。 目 前 ， 在 互联 网 上 除了 使 用 英语 之 外 ， 越 来 越 多 地 
使 用 汉语 、 西 班 牙 语 、 德 语 、 法 语 、 日 语 、 韩 国语 等 英语 之 外 的 语言 。 
从 2000 年 到 2005 年 ， 互 联网 上 使 用 英语 的 人 数 仅仅 增加 了 126.9%， 而 在 
此 期 间 ， 互 联网 上 使 用 俄语 的 人 数 增加 了 664.59%， 使 用 和 葡萄牙 语 的 人 数 
增加 了 327.3%， 使 用 中 文 的 人 数 增 加 了 309.6%， 使 用 法 语 的 人 数 增加 了 
235.9%。 互 联网 上 使 用 英语 之 外 的 其 他 语言 的 人 数 增加 得 越 来 越 多 ， 英 
语 在 互联 网 上 独霸 天 下 的 局 面 已 经 打破 ， 互 联网 确实 已 经 变 成 了 多 语言 
的 网 络 世 界 ， 因 此 ， 网 络 上 的 不 同 语言 之 间 的 翻译 和 信息 处 理 自然 也 就 
越 来 越 迫 切 了 。 








根据 Miniwatts Marketing Group. (2006) 的 调查 ， 互 联网 十 大 语言 
如 下 《〈 表 12.1) : 


表 12.1 互联 网 上 的 十 大 语言 








该 语言 互 

该 语言 世界 “| 该 语言 用 | 联网 用 户 
人 口 预测 “| 户 互联 网 | 增长 率 

( 2006 ) 普及 率 | (20005 
2005 ) 


"ih X 


用 户 数目 占 全 部 


互联 网 十 大 请 言 | ( 按 语言 分 ) | 用 户 比例 


40 974 005 4.00% 381 193 149 | 10.70% | 235.90% 


33 900 000 73 945 860 | 45.80% 
葡萄 牙 文 32 372 000 230 846275 | 14.00% 


意大利 文 28 870 000 59115261 | 48.80% | 118.70% 








23 700 000 143 682 757 | 16.50% | 664.5096 


俄 文 
810484 459 | 79.60% | 3971639 798 | 20.40% | 150.5096 
全 球 总 计 / 平 均 1018057 389 | 100.0096 | 6499697060 | 15.70% | 182.00% 


来 源 : Miniwatts Marketing Group, 2006 








从 表 12.1 中 可 以 看 出 ， 在 2006 年 ， 互 联网 上 的 中 文 用 户 已 经 超过 了 
1.3 亿 ， 占 全 世界 互联 网 用 户 总 数 的 13.00%， 在 中 国 全 部 人 口中 互联 网 
用 户 普及 率 已 经 达到 9.9%， 从 2000 年 到 2005 年 的 互联 网 用 户 增 长 率 为 
309.60%, H 








在 这 个 多 语言 网 络 时 代 ， 多 语言 的 信息 处 理 变 得 越 来 越 重 要 。 这 
里 ， 我 们 介绍 语种 自动 识别 和 跨 语 言 检 索 。 


所 谓语 种 辨认 Canguage identification) 就 是 使 用 计算 机 自动 地 识别 
语言 的 种 类 。 对 于 互联 网 上 的 信息 ， 首 先 判断 这 种 信息 是 属于 哪 一 种 语 
言 的 ， 辨 认 其 语种 ， 这 显然 是 获取 互联 网 信息 的 最 基础 的 工作 。 











语种 辨认 的 方法 有 三 种 : 


m ”使 用 Unicode: 中 文中 全 部 使 用 汉字 ， 日 文中 汉字 、 假 名 和 字母 
共用 ， 韩 文中 使 用 谚 文 〈Hangul) ， 茂 文中 使 用 天 城 体 藏 文字 母 ， 蒙 古 
文中 使 用 蒙古 字母 ， 计 算 机 根据 Unicode 中 不 同文 字 的 形状 就 可 以 轻 而 
易 举 地 识别 文本 所 属 的 语种 。 可 是 ， 很 多 语言 都 使 用 拉丁 字母 ， 如 果 遇 
到 使 用 拉丁 字母 的 语言 ， 不 能 使 用 Unicode 来 进行 语种 辨认 了 。 因 此 ， 
为 了 识别 使 用 拉丁 字母 的 语种 ， 还 需要 采用 如 下 的 方法 。 








m 使 用 一 些 短 的 单词 作为 特征 词 来 识别 : 在 使 用 拉丁 字母 的 语言 
中 ， 冠 词 、 介 词 以 及 一 些 短 的 单词 在 各 种 语言 中 的 出 现 频 度 是 不 同 的 ， 
我 们 可 以 把 这 些 单 词 作 为 识别 语种 的 特征 词 。 例 如 ， 英 语 的 the，and，to， 
of， 法 语 的 de，la，le，a， 德 语 的 der，die，und， 等 等 ， 都 可 以 作为 特征 
词 ， 根 据 它 们 在 文本 中 出 现 的 频 度 ， 来 确定 文本 所 属 的 语种 。 























#122 不同 语言 中 的 特征 词 的 频 度 《根据 ECI 多 语言 语料库 ，100 万 单词 文本 中 的 特征 词 出 现 


频 度 ) 

















English French German Italian Norwegian Spanish 
6631 1 | 5581 4687 8159 la 
5763 3954 3980 5915 | que 
5561 5724 el 
5487 5347 en 
3421 4786 | y 
3214 3765 a 
2313 3149 | los 
2311 2914 | del 
2115 2252 SC 

m ”使 用 典型 的 字母 序列 (n 元 语法 序列 ， 包 括 “ 空 白 ”) 作为 特征 标 


志 。 在 使 用 拉丁 字母 的 语言 中 ， 




















由 三 个 字母 构成 的 三 元 语法 





(trigrams) 是 很 容易 计算 和 存储 的 ， 我 们 可 以 根据 文本 中 三 个 字母 序 


列 出 现 频 度 的 大 小 ， 





来 判断 文本 所 属 的 语种 。 这 种 方法 对 于 短 的 文本 特 


别 有 效 ， 在 短文 本 中 不 一 定 会 出 现 上 述 的 特征 词 ， 但 是 ， 计 算 三 字母 序 
列 却 是 很 方便 的 。 














表 12.3 不 同 语言 中 的 三 字母 序列 的 出 现 频 度 ( 根 据 ECI 多 语言 语料库 ，100 万 单词 文本 中 的 三 





字母 序列 出 现 频 度 ) 








English Italian Norwegian 


Spanish 








21451 | ent | 22824 | der | 17558 32323 E 
_ 121072 | nt. | 18561 | ie. | 17549 | re | 21849 | an_ 























除了 语种 辨认 之 外 ， 在 多 语言 的 网 络 环境 中 ， 如 果 能 够 根据 一 种 语 
言 来 检索 另外 一 种 语言 的 文献 ， 显 然 也 是 非常 有 实用 价值 的 。 这 就 是 跨 
语言 信息 检索 (Cross-Language Information Retrieval， 简 称 CLIR ) 。 





跨 语 言 信息 检索 首先 由 萨 尔 顿 (G. Salton) 于 1970 年 在 《外 国语 言 
文献 的 自动 处 理 》 DJ 一 文中 提出 。 所 谓 跨 语言 信息 检索 ， 就 是 “根据 第 
一 语言 的 提问 在 第 二 语言 中 找到 相关 的 文档 ”(finding relevant 


documents in a second language using a query expressed in a first 








language) . 


pe AR BE f ERIS EH AE Za, SENS] RAR 
注 ， 目 前 已 经 取得 了 很 多 成 果 。 











下 面 是 用 法 语 提 问 (关于 “太阳 能 汽车 ”) ， 系 统 给 出 相关 的 英语 文 
献 的 一 个 跨 语言 信息 检索 的 实例 : 


«topic 

«num? 

Number: CLIO 
<F-title>e 

Les voitures X solaires 
«F-desc? 

Description: Des infor- 
mations sur les voitures 
solaires. <F -narr) 
Narrative: Un document 
pertinent contiendra des 
renseignements sur les 
recherches et le 
développement des 
voitures solaires. Les 
voitures — solaires font 
partie (fun effort pour 
freiner “exploitation de 
carburants non renouve- 
lables. 

<'topic> 





<DOCNO> AP880921-0025 <DOCNO> 
<HEAD>Congress Readying Final Action Qn 
Energy Bill<'HEAD> 
<DATELINE>WASHINGTON(AP)<DATELINE> 
<TEXT> 

Congress is nearing final action on a plan designed 
to reduce U.S. dependence on foreign oil, foster a 
cleaner environment and cause motorists to say 
fill-ex-up—with com, coal or natural gas. By a 
voice vote, the Senate on Tuesday gave its blessing 
to legislation its 64 co-sponsors hope will promote 
commercial development and production of cars, 
trucks and buses that run on alternative fuels. 
..Supporters say the United States has abundant 
supplies of natural gas, the coal that is used to 
produce methanol and the grains that are the roots 
of ethanol. 

Currently, methanol and ethanol are available as 
fuels in some parts of the country, but most 
vehicles experience problems if more than 5 
percent to 10 percent is blended into gasoline. All 
three alternative fuels produce less of the carbon 
and other greenhouse pollutants that scientists say 
are collecting in the atmosphere and trapping heat 
from the sun.. 

Sen. Jack Danforth, R-Mo., who introduced 
similar legislation in 1984 and cosponsored 
Rockefeller's bill, said that the legislation is a 
grand slam for energy independence... 

Increased use of alternative fuels will reduce our 
dangerous dependence on foreign oil he said. 
* Alternative fuels will help clean up our environ- 
ment by reducing harmful auto emissions.” 
«TEXT» 


图 12.1 根据 法 语 的 提问 《〈 左 侧 ) ， 给 出 英语 的 检索 结果 《〈 右 侧 ) 

















跨 语言 信息 检索 兼 具 信 息 检 索 和 机 器 翻译 二 者 的 特征 。 从 信息 检索 
的 角度 说 ， 跨 语言 信息 检索 要 使 用 与 语言 无 关 的 鲁 棒 的 信息 抽取 技术 ， 

















它 要 把 第 一 语言 提问 中 的 单词 以 及 第 二 语言 文档 中 使 用 的 单词 一 起 映射 
到 一 个 空间 中 ， 使 得 计算 机 能 够 识别 它们 之 间 的 相似 性 。 从 机 器 翻译 的 


角度 次 ， 路 语言 信息 检索 不 要 求 机 器 翻译 中 那样 深层 的 剖析 技术 ， 但 又 
不 是 单词 对 单词 的 简单 翻译 ， 在 检索 中 往往 需要 处 理 多 词 术语 。 





一 般 说 来 ， BER 言 息 检索 需要 处 理 三 个 问题 o 


第 一 ， 找 出 译文 : 跨 语 言 信 息 检 索要 找 出 第 一 语言 的 单词 在 第 二 语 
言 中 的 翻译 等 价 物 。 可 以 使 用 两 个 办 法 。 第 一 个 办 法 是 使 用 双语 词典 ， 
在 词典 中 把 翻译 等 价 物 逐 一 地 列举 出 来 ， 第 二 个 办 法 是 使 用 双语 平行 语 
料 库 ， 在 平行 语言 库 中 查询 翻译 的 等 价 物 。 词 典 中 要 人 处理 如 下 事项 : 单 
词 的 拼写 变 体 〈 例 如 ，trench coat [军装 式 大 衣 」 与 trenchcoat) ， 单 词 
的 派生 变 体 ( 例 如 ， 如 果 词 典 中 有 electrostatic， 系 统 可 以 翻译 
electrostatically) , WNC% til CVG, radiopasteurization [放射 性 巴 
RAK] 这 个 单词 ， 在 词典 中 碍 不 到 ， 可 是 ， 在 100 万 词 的 Brown 语 料 
库 中 却 出 现 了 7 次 ) ， 专 有 名 词 的 处 理 〈 例 如 ，Yeltsin [叶利钦 ] ) 。 











BS, CN: 对 于 第 一 语言 中 同样 的 提问 ， 路 语言 信息 检索 往 
往 会 得 到 不 同 的 第 二 语言 的 译文 ， 这 时 ， 删 除 某 些 带 有 翻译 噪声 的 译文 
往往 是 有 好 处 的 。 例 如 ， 如 果 对 于 法 语 的 voiture〈 车 ) ， 英 语 译文 出 现 
对 应 的 单词 carriage〈 四 轮 载 客 马车 ) ， 这 样 一 个 古 奥 的 、 陈 旧 的 单 
词 ， 就 应 当 对 这 个 译文 进行 前 梳 ， 删 除 carriage。 一 般 可 以 对 于 译文 的 
单词 进行 排序 ， 优 先 选 择 那 些 序 号 较 高 的 译文 。 








第 三 ， 译 文 加 权 : 如 果 第 一 语言 的 提问 在 第 二 语言 中 对 应 于 一 个 以 
上 的 译文 ， 可 以 使 用 布尔 加 权 检 索 技术 (weighted Boolean retrieval 
technique) ， 根 据 这 些 译文 的 重要 性 进行 加 权 。 





由 于 互联 网 的 普及 ， 互 联网 上 的 多 语言 信息 处 理 越 来 越 重 要 ， 文 本 
检索 会 议 (TREC) 从 1997 年 开始 设 有 路 语言 信息 检索 的 评测 项 目 ， 叫 
做 “cross-language track”， 每 年 都 进行 评测 ， 通 过 评测 推动 跨 语 言 信息 检 
RES ACHE e 
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第 十 三 章 ， 信 息 抽 取 和 目 动 文摘 








本 章 讨 论 信息 抽取 和 目 动 文 摘 。 


“信息 抽取 ” (information extraction, f&JEKRIEO 研究 如 何 从 自由 文本 
中 自动 地 抽取 特定 的 实体 Centities?) . KA (relation) 和 事件 
Cevents) 的 方法 和 技术 。 


随 着 计算 机 的 普及 以 及 互联 网 (Web) 的 迅 独 发 展 ， 大 量 的 信息 以 
电子 文档 的 形式 出 现在 人 们 面前 。 为 了 应 对 信息 爆炸 种 来 的 严重 挑战 ， 
迫切 需要 一 些 上 自动 化 的 工具 帮助 人 们 在 海量 信息 源 中 迅速 地 抽取 真正 需 
要 的 信息 。 信 息 抽 取 研 究 正 是 在 这 种 背景 下 产生 的 。 




















信息 抽取 与 上 一 章 介绍 的 信息 检索 不 同 ， 它 们 之 间 的 差别 主要 表现 
f= TATA: 





(功能 不 同 。 信 息 检索 系统 主要 是 从 大 量 的 文档 集合 中 找到 与 用 户 
需求 相关 的 文档 列表 ; 而 信息 抽取 系统 的 目的 则 是 从 文本 中 直接 抽取 用 
户 感 兴趣 的 事实 信息 。 


@ 处 理 技 术 不 同 。 信 息 检 索 系 统 通常 利用 统计 及 关键 词 匹配 等 技 
术 ， 把 文本 看 成 < 词 袋子 ”(bags of words) ， (ees des bead 
析 理 解 ， 而 信息 抽取 往往 要 借助 自然 语言 处 理 技术 ， 通 过 对 文本 中 的 句 
子 以 及 篇 章 进行 分 析 处 理 后 才能 完成 














适用 领域 不 同 。 信 息 检 索 系 统 通常 是 与 领域 无 天 的 ， 而 信息 抽取 





系统 则 是 与 领域 相关 的 ， 只 能 抽取 系统 预先 设 定好 的 有 限 种 类 的 事实 信 


=| 


JU o 








A Fi, fe ERRA IS DOCE SA. AS RBREISEROCAS, 
言 恩 抽取 系统 通常 要 以 信息 检索 系统 的 输出 作为 输入 ;而 信息 抽取 技术 
又 可 以 用 来 提高 信息 检索 系统 的 性 能 。 信 息 检 索 和 信息 抽取 二 者 的 结合 
能 够 更 好 地 服务 于 用 户 的 信息 处 理 需 求 。 




















言 恩 抽 取 虽 然 需要 对 文本 进行 一 定 程度 的 理解 ， 但 与 真正 的 文本 理 
fi (Text Understanding) 还 是 不 同 的 。 在 信息 抽取 中 ， 用 户 一 般 只 关心 
有 限 的 感 兴趣 的 事实 信息 ， 而 不 关心 文本 意义 的 细微 差别 以 及 作者 的 写 
作 意 图 等 深层 理解 问题 。 因 此 ， 信 息 抽 取 只 能 算是 一 种 浅 层 的 或 者 说 简 
化 的 文本 理解 技术 。 








一 般 来 说 ， 信 息 抽 取 系 统 的 处 理 对 象 是 自然 语言 文本 尤其 是 非 结构 
化 文本 。 但 广义 上 讲 ， 除 了 电子 文本 以 外 ， 信 息 抽 取 系 统 的 处 理 对 象 还 
可 以 是 语音 、 图 像 、 视 频 等 其 他 媒体 类 型 的 数据 。 在 这 里 ， 我 们 只 讨论 
狭义 的 信息 抽取 ， 即 针对 自然 语言 文本 的 信息 抽取 ， 不 涉及 语 首 、 图 像 
和 视频 等 信息 。 





在 本 章 中 ， 我 们 主要 讨论 两 种 类 型 的 信息 抽取 : 一 种 是 名 称 的 上 自动 
抽取 Cextraction of names) ， 一 种 是 事件 的 自动 抽取 Cextraction of 
events) ， 并 介绍 抽取 规则 的 书写 方法 。 对 于 名 称 的 自动 抽取 ， 介 绍 了 
名 称 标注 器 (name tagger) 和 命名 实体 识别 (naming entity 
recognition) ; 对 于 事件 抽取 ， 介 绍 了 事件 识别 器 (event recognizer) 、 
局 部 句法 分 析 、 篇 章 分 析 和 推理 以 及 知识 获取 等 技术 。 








本 章 最 后 介绍 目 动 文摘 的 有 关 技 术 。 





第 一 三 ”名称 的 目 动 抽取 


语言 结构 的 传统 处 理 方式 很 少 注意 名 称 、 地 址 、 数 词 短语 等 表示 命 
名 实体 (naming entity) 的 单词 ， 语 言 学 家 对 于 它们 几乎 没有 任何 的 兴 
趣 。 语 言 分 析 中 ， 语 言 学 家 在 得 字典 的 时 候 ， 他 们 仅仅 是 将 文本 中 的 单 
词 标注 为 名 词 、 动 词 、 形 容 词 等 ， 一 般 也 不 注意 名 称 。 但 事实 上 ， 许 多 
文章 中 都 包含 大 量 的 名 称 ， 如 果 自 然 语 言 处 理 系 统 不 能 将 它们 识别 为 语 
言 单位 ， 那 么 就 很 难 对 文章 进行 语言 分 析 。 不 同类 型 的 文章 包含 不 同类 
别 的 名 称 。 化 学 文章 中 包含 化 学 物品 名 称 ， 生 物 学 文章 中 包含 与 物种 、 
和 蛋白质 及 基因 有 关 的 名 称 ， 报 刊 中 包含 大 量 的 人 名 、 机 构 名 及 地 名 。 尽 
管 语 言 学 家 对 于 名 称 的 研究 不 感 兴趣 ， 但 是 ， 这 些 名 称 对 于 信息 抽取 是 
很 有 价值 的 ， 目 然 语言 处 理应 当 重 视 名 称 的 研究 。 


























名 称 是 自然 语言 中 常见 的 语言 单位 ， 大 多 数 的 文本 都 充满 着 名 称 ， 
因此 ， 名 称 的 上 自动 抽取 就 成 为 目 然 语 言 分 析 的 重要 的 步骤 。 例 如， 在 事 
件 抽取 和 机 器 翻译 中 ， 首 先 都 需要 进行 名 称 的 上 自动 抽取 。 在 基于 术语 的 
文档 检索 中 ， 如 果 连 续 的 两 个 单词 不 是 名 称 ， 在 一 般 情 况 下 就 要 对 它们 
进行 分 别 的 处 理 ， 而 如 果 连 续 的 两 个 单词 是 名 称 ， 那 么 ， 就 可 以 把 它们 
结合 在 一 起 进行 处 理 。 在 文档 标 引 时 ， 如 果 把 名 称 分 为 人 名 、 机 构 名 和 
地 名 ,索引 残 可 能 具有 更 大 的 实用 价值 。 由 此 可 见 ， 名 称 的 自动 抽取 对 
于 自然 语言 处 理 具 有 重要 的 作用 。 




















名 称 的 自动 抽取 Cextraction of names) 也 就 是 要 对 文本 中 的 名 称 进 
行 自 动 识别 Crecognition) 和 标注 (tagging) 。 


我 们 将 碍 找 人 名 、 机 构 名 和 地 名 作为 名 称 识别 和 标注 的 示例 。 名 称 


识别 和 分 类 处 理 的 结果 采用 标准 通用 置 标语 言 (Standard Generalized 
Mark-up Language， 人 简称 SGML ) 来 标记 ， 在 名 称 开 头 使 用 <NAME 
TYPE=xx>， 结 尾 使 用 </NAME>。 


这 样 ， 句 子 “Capt. Andrew Ahab was appointed vice president of the 
Great White Whale Company of Salem-Massachusetts” 可 以 标注 如 下 : 


Capt. <NAME TYPE=PERSON > Andrew Ahab</NAME> was 
appointed vice president of the <NAME TYPE=ORGANIZATION> 
Great White Whale Company </NAME> of <NAME 
TYPE=LOCATION > Salem </NAME>, <NAME TYPE=LOCATIN> 
Massachusetts </NAME> 





这 种 标注 的 基本 理念 十 分 简单 。 我 们 可 以 写 大 量 的 有 限 状 态 模式 来 
进行 名 称 的 识别 和 标注 ， 其 中 每 个 名 称 都 记录 了 该 名 称 中 的 子 集 并 将 其 
分 类 。 这 些 模式 中 的 内 容 会 根据 目 身 的 特性 与 特定 的 分 类 标记 进行 匹 
配 。 我 们 使 用 标准 普通 表达 符号 ， 特 别 使 用 后 缀 符 '+' 来 与 其 中 一 项 元 素 
的 一 个 或 多 个 实例 进行 匹配 ， 例 如 ， 表 达 式 











Capitalized-word+'Corp.' 
可 以 表示 以 大 写字 母 开 头 并 包含 一 个 或 多 个 单词 的 公司 名 称 。 
同样 地 ， 表 达 式 
‘Mr.’ capitalized-word+ 
可 以 与 用 Mr. 开 头 的 单词 序列 匹配 ， 并 被 归 类 为 人 名 。 


要 创建 一 个 完整 的 名 称 标注 器 (name tagger) ， 就 要 编制 一 个 文本 


标注 的 程序 ， 然 后 从 文本 中 的 每 个 单词 开始 与 所 有 的 表达 陈 进 行 匹 配 ; 
一 旦 匹配 成 功 ， 单 词 序 列 束 会 补 归 类 ， 然 后 再 继续 这 样 的 步骤 ， 和 直到 标 
注 结束 。 


如 末 模 式 匹 配 是 以 特定 指 问 或 规则 开始 的 ， 例 如 ， 要 遵循 最 长 匹配 
的 规则 ， 或 者 要 给 不 同 规则 制定 优先 顺 序 ， 那 么 ， 在 匹配 时 就 必须 根据 
这 样 的 规则 或 优先 顺序 ， 选 择 一 项 最 佳 的 匹配 。 





一 个 操作 性 能 好 的 的 名 称 标注 器 需要 一 系列 的 单词 列表 ， 例 如 ， 一 
些 知 名 公司 名 称 的 列表 CO, IBM, Ford) 以 及 常见 首 字 母 列表 Chl 
lll, Fred, Susan) 。 





男 外 ， 名 称 标注 器 还 应 该 具备 一 个 能 识别 不 同 别名 的 装置 。 例 如 ， 
在 同一 篇 文章 中 出 现 了 “Fred Smith”* 和 “Mr，Smith”， 这 两 个 名 称 很 可 能 
指 的 是 同一 个 人 。“Robert Smith Park” 可 能 是 一 个 人 名 ， 也 可 能 是 一 个 
地 名 《公园 的 名 称 ) ， 但 如 果 在 接 下 来 的 句子 中 出 现 “<Mr. Park” 这 样 的 
AZ, HA, FAT LA RE “Robert Smith Park” 也 是 一 个 人 名 。 





逐步 地 添加 这 样 的 模式 和 功能 ， 通 过 机 器 学 习 的 方法 ， 就 可 以 目 动 
训练 出 一 个 高 效能 的 名 称 标注 器 。 当 然 ， 名 称 标注 器 的 训练 是 一 个 非常 
艰 否 的 过 程 ， 需 要 设计 一 个 高 水 平 的 系统 训练 程序 来 进行 训练 。 如 果 训 
练 得 当 ， 在 对 英语 新 闻 的 特定 话题 或 者 不 同 话题 进行 训练 和 测试 时 ， 名 
称 标注 器 的 标注 精确 度 可 达到 969%。 





下 面 我 们 简单 地 介绍 名 称 标注 器 的 训练 方法 。 


我 们 来 考虑 一 项 简单 的 任务 名 称 标注 任务 一 一 人 名 标注 。 





在 人 名 标注 时 ， 每 个 标记 tagi 具备 5 个 可 能 性 : 人 名 的 开始 ， 人 名 的 





中 间 ， 人 名 的 结尾 ， 单 个 人 名 的 开始 和 结尾 ， 或 非 人 名 。 当 给 一 个 单词 
进行 标注 时 ， 每 个 单词 w 都 可 能 属于 这 5 个 可 能 性 中 的 一 个 ， 为 此 我 们 
需要 计算 wi 标注 为 tagi 的 概率 ptagi wi) 。 如 果 wi ="John”， 那 么 ， 它 
的 tag 就 是 人 名 的 开始 ， 或 者 是 单个 人 名 的 开始 和 结尾 ， 如果 wi 
=“eat"， 那 么 ， 以 上 的 两 种 可 能 性 都 为 零 ， 它 是 一 个 非 人 名 。 对 于 句子 
中 的 每 一 个 单词 ， 都 计算 该 单词 的 p (tag; Jw, ) 。 这 样 ， 我 们 就 可 以 得 
到 一 个 训练 的 结 








把 所 得 到 的 训练 结果 运用 于 新 的 句子 ， 使 用 韦 特 比 搜索 算法 来 求 这 
个 句子 中 可 能 性 最 大 的 人 名 标记 序列 ， 这 样 ， 就 可 以 从 新 的 句子 中 抽出 
人 名 。 


在 上 面 的 名 称 标注 中 ， 名 称 的 概率 仅 取 决 于 当前 词 ， 没 有 考虑 上 下 
文 ， 这 样 的 概率 是 不 准确 的 。 前 面 我 们 说 过 ， 在 单词 “Mr.” 后 面 可 以 预 
测 出 是 一 个 人 的 名 字 ， 而 在 单词 “says” 的 前 面 也 可 以 预测 出 是 一 个 人 的 
名 字 。 这 意味 着 ， 一 个 标记 的 概率 还 与 前 面 的 单词 、 当 前 词 、 后 面 的 单 
词 有 关 ， 也 就 是 说 ， 我 们 有 必要 考虑 上 和 下文， 计算 概率 P (tag, Wi, Wi， 
Wa) ， 这 样 ， 我 们 就 需要 使 用 二 元 语法 了 来 进行 名 称 标注 了 。 





名 称 标注 避 的 训练 还 可 以 使 用 决策 树 、 最 大 燃 模 型 、 隐 马尔 可 夫 模 
HERR, ADAR. 





在 自然 语言 处 理 中 ， 名 称 的 自动 抽取 又 叫做 “命名 实体 识 
yj” (Naming Entity Recognition) 。 一 般 来 说 ， 命 名 实体 识别 的 任务 就 
是 识别 出 待 处 理 文本 中 三 大 类 命名 实体 和 七 小 类 命名 实体 。 














三 大 类 命名 实体 是 实体 类 、 时 间 类 和 数字 类 。 七 小 类 命名 实体 是 人 





名 、 机 构 名 、 地 名 、 时 间 、 日 期 、 货 币 和 百分比 。 在 这 些 命名 实体 中 ， 
时 间 、 日 期 、 货 币 和 百分比 的 构成 有 比较 明显 的 规律 ， 识 别 起 来 相对 容 
易 ， 而 人 人名、 地名、 机构 名 的 用 字 灵 活 ， 识 别 的 难度 很 大 ， 因 此 命名 实 
体 识别 通常 指 的 是 人 名 、 地 名 和 机 构 名 的 识别 。 我 们 在 上 面 只 是 介绍 了 
人 名 的 识别 ， 地 名 和 机 构 名 的 识别 还 没有 涉及 。 








命名 实体 识别 的 过 程 通常 包括 两 部 分 : 中 识别 命名 实体 的 边界 ; @ 
确定 命名 实体 的 类 别 ， 判 断 命 名 实体 是 属于 人 和 名、 地 名 还 是 机 构 名 。 英 
语 中 的 命名 实体 具有 比较 明显 的 形式 标志 ， 即 人 名 、 地 名 和 机 构 名 等 实 
体 中 的 每 个 单词 的 第 一 个 字母 要 大 写 ， 所 以 实体 边界 的 识别 相对 容易 ， 
重点 是 确定 实体 的 类 别 。 




















对 于 中 文 来 说 ， 命 名 实体 识别 的 主要 难点 在 于 : 


C1) 命名 实体 形式 多 变 : 命名 实体 的 内 部 结构 很 复杂 ， 对 中 文 命 
名 实体 来 说 ， 情 况 尤 其 如 此 。 


人 名 : 人 名 一 般 包含 姓氏 由 一 到 两 个 汉字 组 成 ) 和 名 (由 奋 干 个 
汉字 组 成 ) 两 部 分 ， 其 中 姓氏 的 用 字 是 有 限制 的 ， 而 名 的 用 字 很 灵活 。 
人 名 还 有 很 多 其 他 形式 ， 可 以 使 用 名 来 指 代 一 个 人 ， 也 可 以 使 用 字 、 号 
等 其 他 命名 来 指 代 一 个 人 ， 还 可 以 使 用 姓 加 上 前 绥 或 后 缀 以 及 职务 名 来 
指 代 一 个 人 。 例 如 :“ 杜 甫 、 杜 子 美 、 子 美 、 杜 工 部 ”都 是 同一 个 人 。 








地 名 : 地 名 通 冲 由 知 干 个 汉字 组 成 ， 可 能 包括 作为 后 绥 的 关键 字 ， 
也 可 能 使 用 别名 。 例 如 ,“ 广 州 、 广 州 市 、 羊 城 ” 是 指 同一 个 地 方 ,“ 羊 
城 ” 是 别名 。 除 了 全 称 的 地 名 之 外 ， 还 存在 一 些 简称 来 指称 地 理 位 置 。 
例如 ,“ 测 北 、 湖 北 省 、 鄂 ? 欧 是 指 同 一 个 地 方 ,“ 鄂 ? 是 简称 。 





机 构 名 : 机 构 名 可 以 包含 命名 性 的 成 分 、 修 饰 性 成 分 、 表 示 地 名 的 





成 分 以 及 关键 词 成 分 等 。 例 如 : BU EC ELS BOB ot A Y 
um, “北京 ”是 表示 地 名 的 成 分 ,“ 百 富 勤 ”是 命名 性 的 成 分 ,，“ 投 资 咨 
询 ” 是 修饰 性 成 分 , “公司 ”是 关键 词 成 分 。 机 构 名 内 部 还 可 以 衣 套 子 机 
构 名 ， 例 如 : 机 构 名 “北京 大 学 附属 小 学 ?中 暴 套 了 必 一 个 机 构 名 “北京 
大 学 ”。 机 构 名 中 还 有 很 多 简称 形式 ， 例 如 :“ 中 国 奥 委 会 是“ 中国 奥 林 
匹克 运动 会 ”的 简称 、“ 北 师 大 二 附 ? 是 “北京 师范 大 学 第 二 附属 小 学 ”的 
简称 。 























(2) 命名 实体 的 语言 环境 复杂 : 命名 实体 是 语言 中 非常 普 近 的 现 
象 ， 因 此 可 以 出 现在 各 种 语言 环境 中 。 同 样 的 汉字 序列 在 不 同 语 境 下 ， 
可 能 具有 不 同 的 实体 类 型 ， 或 者 在 茶 些 条 件 下 是 实体 ， 在 另外 的 条 件 下 
就 不 是 实体 。 例 如 : 














人 名:“ 彩 震 ? 在 某 些 条 件 下 指 人 名 ， 而 茶 些 条 件 下 惑 是 一 种 目 然 现 
象 ; 











地 名 :“ 河 南 ” 在 某 些 条 件 下 是 一 个 省 名 ， 在 茶 些 条 件 下 是 指 河 的 南 
边 ; 








机 构 名 :“ 新 世界 ”在 某 些 条 件 下 指 机 构 名 ， 在 某 些 条 件 下 只 是 一 个 
词组 。 





与 英语 相 比 ， 汉 语 命名 实体 识别 任务 要 复杂 得 多 ， 主 要 表现 在 : 


C1) 汉语 文本 没有 类 似 英 语文 本 中 空格 之 类 的 显 式 标 示 词 边界 的 
标示 符 ， 必 须 进行 目 动 切 词 ， 而 自动 切 词 和 命名 实体 识别 之 间 会 互相 影 
m, BEE AE Hil 





(2) 英语 的 命名 实体 往往 是 首 字母 大 写 的 ， 例 如 : Liu Chang Le is 








the founder of Phoenix TV 中 ， 人 名 Liu Chang Le 的 首 字 母 是 大 写 的 。 而 
中 文 文本 中 没有 这 样 的 标示 ， 例 如 : “凤凰 卫视 的 创始 人 是 刘 币 乐 ” 中 ， 
NAAN AB ERE ABB A A 











命名 实体 是 日 然 语言 文本 中 承载 信息 的 重要 语言 单位 ， 命 名 实体 的 
识别 和 分 析 研 究 在 网 络 信息 抽取 、 网 络 内 容 管理 和 知识 工程 等 领域 占有 
非常 重要 的 地 位 。 目 前 的 命名 实体 识别 的 技术 水 平 还 远 远 不 能 满足 大 规 
模 真 实 应 用 的 需求 ， 还 需要 更 加 深入 的 研究 。 从 研究 方法 上 来 讲 ， 命 名 
实体 识别 的 研究 要 突破 自然 语言 处 理 领 域 的 限制 ， 面 向 真实 的 互联 网 应 
用 ， 研 究 面 向 海量 、 见 余 、 寞 构 、 不 规范 、 含 有 大 量 品 声 的 网 页 的 命名 
实体 识别 技术 。 

















"Bo WB ”事件 的 目 动 抽取 


事件 自动 抽取 的 主要 功能 是 从 文本 中 抽取 出 特定 的 事实 信息 

(factual information) 。 例 如 ， 从 新 闻 报 道中 抽取 出 仆 怖 事件 的 详细 情 
况 : 时 间 、 地 上 点、 作案 者 、 受 害 者 、 和 袭击 目标 、 使 用 的 武器 等 ， 从 经 济 
新 闻 中 抽取 出 公司 发 布 新 产品 的 情况 : 公司 名 、 产 品名 、 发 布 时 间 、 产 
品 性 能 等 ， 从 病人 的 医疗 记录 中 抽取 出 病人 的 情况 : 症状 、 诊 断 记 录 、 
检验 结果 、 处 方 等 等 。 被 抽取 出 来 的 信息 通常 要 以 结构 化 的 形式 来 描 
述 ， 这 些 信 息 可 以 直接 存 入 数据 库 中 ， 供 用 户 查 询 以 及 进一步 分 析 利 
用 。 








事件 自动 抽取 系统 要 从 文本 中 目 动 地 抽取 某 种 类 型 的 实例 或 事件 。 








例如 ， 对 于 下 面 的 句子 : 


Harrier Smith, vice president of Ford Motor Corp., has been appointed 
president of DaimlerChrysler Toyota. (Ford Motor Corp. 的 副 总 裁 Harrier 
Smith 被 任命 为 DaimlerChrysler Toyota 公 司 的 总 裁 ) 


经 过 事件 抽取 之 后 ， 我 们 可 以 得 到 如 下 的 两 个 数据 库 记 录 : 


Person: Harrier Smith 


Position: vice president 


Company: Ford Motor Corp. 


Start/leave Job: leave job 


图 13.1 数据 库 记 录 1 











Person: Harrier Smith 


Position: vice president 


Company: Daimler Chrysler Toyota 


Start/leave Job: start job 
图 13.2 ”数据 库 记 录 2 











第 一 个 记录 是 Harrier Smith 在 Ford Motor Corp. 公 司 离职 的 记录 ， 第 
二 个 记录 是 Harrier Smith 在 DaimlerChrysler Toyota 公 司 就 职 的 记录 。 


用 信息 抽取 的 术语 来 说 ， 我 们 从 上 面 的 文本 中 创建 了 两 个 填充 好 
KARI” (templates) ， 而 模板 中 的 填充 项 叫做 “ 模 ”(slot) 。 


我 们 可 以 使 用 正则 表达 式 来 描述 上 面 的 事件 : 
capitalized-word* 1  'appointed' capitalized-word+, , ‘as’ 


‘president's 


与 这 个 正则 表达 式 相 应 的 模板 如 图 13.3 所 示 。 


Person: 2 
Position: 3 


Company: 1 


Start/leave job: start job 





图 13.3 i 
模板 中 的 编号 项 目 可 以 用 与 其 相 匹配 的 相关 编号 的 文字 来 填充 。 
这 个 模板 可 以 处 理 如 下 的 简单 句子 : 


Ford appointed Harrier Smith as president. 





这 样 的 模板 比较 简单 ， 还 难以 处 理 真 实 的 复杂 文本 ， 因 为 在 实际 的 
应 用 中 ， 可 能 出 现 的 句子 的 变化 花样 很 多 ， 这 样 简单 的 模板 是 难于 应 付 
的 。 





这 些 变化 花样 举例 如 下 : 


e 公司 的 名 称 : Abercrombie and Fitch appointed Harriet Smith as 


president. 


e 公司 的 描述 : IBM, the famous computer manufacturer , 


appointed Harriet Smith as president. 


e 人 句子 的 修饰 语 : IBM unexpectedly appointed Harriet Smith 


yesterday as president. 
e 时 态 : IBM has/will appointed Harriet Smith as president. 


e 从 句 结构 : Harriet Smith, who was appointed as president by IBM 


e 动词 名 物化 : IBM announced the appointment of Harriet Smith as 


president. 


e 职位 的 名 称 : IBM appointed Harriet Smith as executive vice 


president for networking. 


e 连词 : IBM declared a special dividend and appointed Harriet 


Smith as president. 


e 所 指 照应 : IBM has made a major management shuffle; the 


company appointed Harriet Smith as president this week. 


e 必要 的 推理 : Thomas J. Watson resigned as president of IBM , 


and Harriet Smith succeeded him. 


MSRM Ei, BERS TI — PRBS HU E536 HTS SS A” 
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为 了 解决 这 样 的 复杂 化 问题 ， 我 们 可 以 使 用 名 称 标注 器 对 于 文本 中 
的 句子 进行 简单 的 句法 分 析 ， 标 注 时 不 是 使 用 具体 的 单词 而 是 使 用 词组 
类 型 符号 〈 如 ， 名 词 词组 noun phrase、 动 词 词组 verb phrase 等 ) 来 建立 
模板 。 例 如 ， 对 于 句子 


Ford Motor Company has appointed Harriet Smith，45， as 
president. 


名 称 标注 册 可 以 产生 出 如 下 的 结构 成 分 《用 下 划 线 标 出 ) : 


Ford Motor Company has appointed Harriet Smith, 45, as president. 





name type = org name type = person 


通过 名 词 词 组 (np) 分 析 ， 可 以 得 到 : 


Ford Motor Company has appointed Harriet Smith, 45, as president. 








np head = org np head = person np head = president 


通过 动词 词组 Cvp) 分析， 可 以 进一步 得 到 : 


Ford Motor Company has appointed Harriet Smith, 45, as president. 





np head =org vp head =appoint np head =person np head = president 


最 后 ， 我 们 就 可 以 得 到 事件 Even) 的 描述 如 下 : 





| | 
Ford Motor Company has appointed Harriet Smith, 45, as president. 
| 





Event person = Harriet Smith position = president 


company = Ford Motor Company  start/leave job = start job 


图 13.4 ”事件 的 描述 








在 这 样 的 事件 插 述 中 ， 名 词 词组 np 和 动词 词组 vp 痢 可 以 使 用 自 确 问 
上 的 浅 层 句法 分 析 方 法 轻而易举 地 分 析出 来 。 


根据 句法 分 析 得 到 的 事件 描述 结果 来 填充 模板 中 的 槽 ， 我 们 不 难得 
到 如 图 13.5 的 模板 。 


Person = Harriet Smith 
Position = president 


Company = Ford Motor Company 





Start/leave job = start job 








图 13.5 ”填充 后 的 模板 























上 述 事件 抽取 的 过 程 是 : 
图 13.6 事件 抽取 的 过 程 

















通过 句法 分 析 得 到 输入 文本 的 杂种 结构 表示 ， 如 完整 的 分 析 树 或 分 
析 树 片段 的 集合 ， 可 以 作为 计算 机 理解 自然 语言 的 基础 。 





在 信息 抽取 领域 一 个 比较 明显 的 趋势 是 越 来 越 多 的 系统 采用 局 部 分 
析 技 术 ， 这 主要 是 由 于 以 下 三 方面 原因 造成 的 。 








第 一 个 原因 是 信息 抽取 任务 目 身 的 特殊 性 。 信 息 抽 取 中 需要 抽取 的 
信息 通常 只 是 茶 一 领域 中 数量 有 限 的 事件 或 和 关系。 因此， 文本 中 可 能 只 
有 一 小 部 分 与 抽取 任务 有 关 ， 其 他 部 分 与 抽取 任务 无 天。 就 是 那些 与 抽 
取 任 务 有 关 的 句子 ， 也 并 不 需要 分 析出 它 的 完整 的 结构 表示 ， 只 要 识别 
出 句子 中 部 分 片段 之 间 的 某 些 特定 关系 束 行 了 。 因 此 ， 信 息 抽 取 只 需要 
得 到 完整 分 析 树 的 部 分 子 图 。 


























第 二 个 原因 是 局 部 分 析 技 术 在 消息 理解 系列 会 议 〈Message 
Understanding Conference， 简 称 MUC) 的 系列 评测 中 获得 成 功 。SRI 公 


司 在 其 参加 第 四 次 消息 理解 会 议 (MUC-4) 评测 的 FASTUS 系 统 中 开始 
采用 层级 式 有 限 状态 自动 机 (Cascaded Finite-State Automata) 的 分 析 方 
法 。 该 方法 使 FASTUS 系 统 具 有 概念 简单 、 运 行 速度 快 、 开 发 周期 短 等 
优点 ， 在 多 次 MUC 评 测 中 都 居于 领先 地 位 。 


最 后 ， 第 三 个 原因 是 ， 除 了 局 部 分 析 技 术 之 外 ， 目 前 我 们 尚 没有 其 
他 更 好 的 、 可 供 选 择 的 方法 。 目 前 ， 完 全 分 析 技 术 在 和 鲁 棒 性 方面 以 及 在 
时 空 开销 方面 都 难以 满足 信息 抽取 系统 的 需要 。 


但 是 ， 男 一 方面 ， 我 们 也 要 清醒 地 看 到 : 局 部 分 析 技 术 的 能 力 还 是 
有 局 限 的 ， 这 种 技术 只 能 使 信息 抽取 系统 的 处 理 能 力 达 到 目前 的 水 平 ， 
要 想 使 信息 抽取 系统 的 性 能 有 更 大 的 飞跃 ， 我 们 还 必须 探索 更 有 效 的 分 
HAA 


除了 上 面 所 描述 的 局 部 句法 分 析 技 术 之 外 ， 对 于 事件 上 自动 抽取 这 样 
的 复杂 的 信息 抽取 还 需要 进行 篇 半分 析 和 推理 ， 并 需要 使 用 知识 获取 的 
技术 。 








一 般 说 来 ， 在 事件 自动 抽取 中 ， 用 户 关 心 的 事件 以 及 各 种 关系 往往 
散布 于 文本 的 不 同位 置 ， 其 中 涉及 到 的 实体 通常 可 以 有 多 种 不 同 的 表达 
方式 ， 并 且 还 有 许多 事实 信息 隐 含 于 文本 之 中 。 为 了 准确 而 没有 遗漏 地 
从 文本 中 抽取 相关 的 信息 ， 信 息 抽 取 系 统 必须 能 够 识别 文本 中 的 共 指 现 
象 ， 进 行 必 要 的 推理 ， 以 合并 摘 述 同一 事件 或 实体 的 信息 片段 。 因 此 ， 
篇 音 分 析 、 推 理 能 力 对 信息 抽取 系统 来 说 是 必 不 可 少 的 。 




















初 看 起 来 ， 信 息 抽 取 中 的 篇 章 分 析 比 故事 理解 中 的 篇 半分 析 要 简单 
得 多 。 因 为 在 信息 抽取 中 只 需要 记录 茶 些 类 型 的 实体 和 事件 就 行 了 。 但 
征 ， 大 多 数 信息 抽取 系统 只 识别 和 保存 与 需求 相关 的 文本 片段 ， 从 中 抽 

















取出 一 些 零碎 的 信息 。 在 这 个 过 程 中 很 可 能 把 那些 用 以 区 分 不 同事 件 、 
不 同 实体 的 关键 信息 给 遗漏 了。 而 如 果 信 息 不 全 ， 要 完成 遍 章 分 析 束 相 
当 困 难 。 





目前 尚 缺 乏 有 效 的 篇 章 分 析 理 论 和 方法 可 以 借鉴 。 现 有 篇 章 分 析 理 
论 大 多 是 面 癌 人 、 面 癌 口 语 的 ， 分 析 时 需要 借助 大 量 的 常识 ， 目 前 篇 章 
分 析 设 想 的 目标 文本 也 比 真 实 文 本 要 规范 ， 并 且 理 论 本 身 还 没有 在 大 规 
模 语 料 上 进行 过 测试 。 


言 恩 抽取 系统 除了 有 要 解 决 文本 内 的 共 指 问题 外 ， 还 需要 解决 文本 间 
的 共 指 问题 ， 也 惑 是 路 文本 的 共 指 问题 。 在 文本 来 源 比 较 广泛 的 情况 
站， 很 可 能 有 多 篇 文本 描述 了 同一 个 事件 、 同 一 个 实体 ， 不 同文 本 间 还 
会 存在 语义 卜 义 ， 如 相同 的 词 具有 不 同 的 含义 ， 而 不 同 的 词 却 代表 着 同 
一 个 意思 。 为 了 避免 信息 的 重复 和 冲突 ,信息 抽 取 系 统 还 需要 具有 识别 
和 处 理 这 些 现象 的 能 力 。 











根据 近年 来 对 于 信息 抽取 系统 的 局 部 篇 间 处 理 能 力 ( 指 称 短语 的 共 
指 消 解 ) 的 评测 结果 来 看 ， 篇 章 处 理 能 力 仍然 是 目前 信息 抽取 系统 研制 
中 的 弱项 ， 是 一 个 瓶颈 问题 ， 急 需 深 入 研究 。 





作为 一 个 自然 语言 处 理 系 统 ， 信 息 抽取 系统 需要 强大 知识 库 的 文 
撑 。 在 不 同 的 信息 抽取 系统 中 ， 知 识 库 的 结构 和 内 容 是 不 同 的， 但 一 般 
来 说 ， 任 何 一 个 知识 库 部 要 具有 如 下 部 分 : 





1. 一 部 词典 (Lexicon) : 用 于 存放 通用 的 普通 词汇 以 及 领域 的 专 
业 词 汇 的 静态 属性 信息 ; 


2. 一 个 抽取 模式 库 (Extraction Patterns Base) : 其 中 的 每 一 个 模式 
可 以 进行 附加 的 语义 操作 ， 模 式 库 通 常 也 划分 为 一 般 的 通用 部 分 和 不 同 


领域 或 场景 的 专用 部 分 ; 


3. 一 个 基于 知识 本 体 (Ontology) 的 概念 层次 模型 : 这 个 模型 通常 
是 面 同 特定 领域 或 场景 的 ， 它 是 通用 概念 层次 模型 经 过 局 部 的 细 化 或 泛 
化 之 后 而 形成 的 。 








除 此 之 外 ， 用 于 信息 抽取 的 知识 库 还 可 以 配备 篇 章 分 析 和 推理 规则 
库 、 模 板 填 充 规 则 库 等 。 


霍 布 斯 (J. Hobbs〉 曾 提出 一 个 信息 抽取 系统 的 通用 体系 结构 A , 
他 将 信息 抽取 系统 抽象 为 “级 联 的 转换 器 或 模块 集合 "， 这 个 集合 利用 手 
工 编制 或 自动 获得 的 规则 在 每 一 步 过 滤 挥 不 相关 的 信息 ， 增 加 新 的 结构 
=a 
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霍 布 斯 认为 典型 的 信息 抽取 系统 应 当 由 依次 相连 的 如 下 10 个 模块 组 
成 : 


1. 文本 分 块 : 将 输入 文本 分 割 为 不 同 的 部 分 ， 每 一 个 部 分 叫 
做 “ 块 ”。 


2.” 预 处 理 : 将 得 到 的 文本 块 转换 为 句子 序列 ， 每 个 句子 由 词汇 项 
( 词 或 特定 类 型 的 短语 ) 及 相关 的 属性 (如 词类 ) 组 成 。 


3. WUE: 过 小 掉 不 相关 的 句子 。 


4. 预 分 析 : 在 词汇 项 (Lexical Items) 序列 中 识别 确定 的 、 小 型 的 
短语 结构 ， 如 名 词 短 语 、 动 词 短 语 、 并 列 结构 等 。 





5. 分 析 : 通过 分 析 小 型 的 短语 结构 和 词汇 项 的 序列 建 并 揪 述 句子 结 
构 的 完整 分 析 树 或 分 析 树 片段 集合 。 


6. 片段 组 合 : 如 果 上 一 步 没 有 得 到 完整 的 分 析 树 ， 则 需要 将 分 析 树 
片段 集合 起 来 ， 或 者 将 逻辑 形式 片段 组 合 起 来 ， 以 便 构 成 表示 整个 句子 
的 一 棵 分 析 树 或 其 他 的 逻辑 表示 形式 。 


7. 语义 解释 : 从 分 析 树 或 分 析 树 片段 的 集合 生成 语义 结构 、 意 义 表 
示 或 其 他 逻辑 形式 。 





8. ix: 消解 上 一 模块 中 存在 的 皮 义 ， 以 便 得 到 唯一 的 语义 结 
构 表示 。 





9. 共 指 消解 或 篇 章 处 理 : 通过 确定 同一 实体 在 文本 不 同 部 分 中 的 不 
同 揪 述 ， 将 当前 句子 的 语义 结构 表示 合并 到 先前 的 处 理 结果 中 。 





10. 模板 生成 : 根据 文本 的 语义 结构 表示 ， 生 成 最 终 的 模板 。 








当然 ， 并 不 是 所 有 的 信息 抽取 系统 都 明确 包含 上 述 的 所 有 这 些 模 
块 ， 并 且 也 未 必 完 全 遵循 以 上 的 处 理 顺 序 。 例 如 ，6、7 两 个 模块 的 执行 
顺序 可 能 相反 。 但 一 个 信息 抽取 系统 应 当 包含 以 上 模块 中 所 描述 的 功 
能 。 因 此 ， 翟 布 斯 提出 的 这 个 信息 抽取 系统 的 通用 体系 结构 ， 对 于 我 们 
仍然 是 有 启发 的 。 

















言 息 抽取 系统 通常 是 面向 特定 的 应 用 领域 或 场景 的 ， 具 有 领域 受 限 
性 。 这 种 领域 受 限 性 决定 了 信息 抽取 系统 中 用 到 的 主要 知识 基本 上 是 浅 
层 知 识 。 这 种 浅 层 知 识 的 抽象 层次 不 高 ， 通 闻 只 适用 于 特定 的 应 用 领 
域 ， 很 难 在 其 他 领域 推广 复 用 。 如 有 果 要 把 一 个 信息 抽取 系统 移植 到 新 的 
领域 或 新 的 场景 ， 开 发 者 必须 要 为 系统 重新 编制 大 量 的 领域 知识 。 








一 般 说 来 ， 手 工 编制 领域 知识 往往 是 枯燥 的 、 费 时 的 、 易 错 的 ， 费 
用 也 比较 高 ， 而 且 ， 这 样 的 工作 需要 具有 专门 知识 的 人 员 来 承担 。 这 些 





人 应 当 具 有 应 用 领域 的 知识 、 知 识 描述 语言 的 知识 ， 并 且 还 要 熟悉 系统 
的 设计 与 实现 技术 。 

根据 数理 语言 学 中 的 齐 夫 定律 ， 自 然 语言 中 普 裔 存在 着 “长 尾 综合 
效应 ”(long tail syndrome) 书 。 请 看 下 面 的 图 13.7: 
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在 图 13.7 中 ， 横 轴 表 示 频 率 词典 中 单词 的 序号 r 的 对 数 log r GERUT 
号 从 小 到 大 的 顺序 排列 ， 从 序号 1 排 起 ) ， 纵 轴 表 示 频 率 词典 中 单词 的 
频率 n 的 对 数 1og Dn《〈 按 照 频率 从 高 到 低 的 顺序 排列 ， 出 现 频率 最 高 的 单 
词 的 序号 为 1) ， 试 验证 明 ， 当 15<r<1 500 的 时 候 ， 频 率 相同 的 词 群 容 
量 不 大 ， 但 当 r>1 500， 也 就 是 当 词 的 频率 较 小 的 时 候 ， 频 率 相同 的 词 
群 的 容量 就 大 大 增加 了 ， 而 且 ， 随 着 频率 的 变 小 ， 频 紊 相同 的 词 群 的 数 
量 越 来 越 多 ， 其 分 布 形成 一 条 破碎 折线 。 可 以 清楚 地 看 出 ， 在 这 条 破 伴 
折线 的 后 面 一 段 拖 着 一 条 “长 尾 ”。 这 样 的 事实 说 明 ， 自 然 语 言 中 的 绝 大 
多 数 事实 采用 经 常 出 现 的 、 非 党 少量 的 表达 方式 来 描述 ， 而 剩余 的 事实 
却 需 要 大 量 的 、 不 经 常 出 现 的 表达 方式 才能 窗 产 ， 因 此 才 会 在 曲线 中 出 
现 “ 长 尾 ”。 





由 于 “长 尾 综合 效应 ”的 影响 ， 人 工 编制 的 知识 库 很 难 达 到 很 高 的 语 





言 履 盖 面 。 因 此 ， 知 识 获取 问题 已 经 成 为 制约 信息 抽取 技术 广泛 应 用 的 
一 个 主要 障碍 。 它 除了 影响 系统 的 可 移植 性 外 ， 也 古 影响 系统 性 能 的 主 
要 因素 。 正 因为 如 此 ， 近 几 年 介 开 的 多 次 专题 学 术 研 讨 会 都 是 以 解决 知 
识 获取 问题 、 建 立 具 有 目 适 应 能 力 的 信息 抽取 系统 为 主题 的 。 











领域 知识 获取 可 以 采用 的 策略 通常 有 两 种 ， 一 种 策略 是 "人工 + 辅 助 
工具 (图形 用 户 接口 )” 为 一 种 集 略 是 “自动 /半自动 + 人 工 校对 ”。 第 一 
种 朱 略 相对 简 蛙 一 些 ， 以 人 工 工作 为 主体 ， 只 是 在 为 人 工 移植 知识 的 时 
候 ， 提 供 了 一 些 图 形 化 的 辅助 工具 ， 以 方便 和 加 快 领域 知识 获取 过 程 。 
第 二 种 策略 采用 有 指导 的 、 无 指导 的 或 间接 指导 的 机 需 学 习 撤 术 ， 从 文 
本 语 料 中 目 动 地 或 半 上 自动 地 获取 领域 知识 ， 人 工 干 预 的 程度 比较 低 。 














实际 上 ， 这 两 种 策略 不 是 完全 对 立 的 ， 只 是 上 自动 化 程度 高 低 不 同 而 
已 。 某 种 意义 上 讲 ， 第 一 种 策略 仍然 是 一 种 人 工 编制 知识 库 的 过 程 ， 知 
识 瓶 颈 问 题 只 是 得 到 某 种 程度 的 缓解 。 第 二 种 策略 才 是 解决 信息 抽取 系 
统 知识 获取 瓶颈 问题 的 真正 出 路 。 近 几 年 还 有 不 少 研究 者 采用 自 举 
(bootstrapping) 技术 ， 从 未 经 标注 的 语料库 中 直接 上 自动 地 进行 学 习 ， 
抽取 出 有 关 的 模式 。 





从 目 然 语言 文本 中 获取 结构 化 信息 的 研究 最 早 开 始 于 20 世 纪 60 年 代 
中 期 ， 这 被 看 作 是 信息 抽取 搁 术 的 开创 性 研究 ， 它 以 两 个 长 期 的 目 然 语 
言 处 理 研究 项 目 为 代表 。 


一 个 是 美国 纽约 大 学 开展 的 “语言 串 ”(Linguistic String) WH, i% 
项 目 开始 于 20 世 纪 60 年 代 中 期 并 一 直 延 续 到 20 世 纪 80 年 代 。 该 项 目的 主 
要 研究 内 容 是 建立 一 个 大 规模 的 英语 计算 语法 ， 与 之 相关 的 应 用 是 从 医 
疗 领 域 的 X 光 报告 和 医院 出 院 记录 中 抽取 “信息 格式 ”(Information 
Formats) ， 这 种 信息 格式 实际 上 就 是 我 们 在 前 面 所 说 的 “ 模 








Nx” (Templates) 。 
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年 代 开 展 的 有 关 故 事理 解 的 研究 。 他 的 学 生 德 容 (Gerald De Jong) ix 
计 实 现 了 FRUMP 系 统 ， 访 系统 是 根据 故事 脚本 理论 建立 的 一 个 信息 抽 
取 系 统 ， 可 以 从 新 闻 报 道中 自动 地 抽取 信息 ， 内 容 涉 及 地 震 、 工 人 罢工 
等 很 多 领域 或 场景 。 访 系统 采用 了 期 望 驱 动 与 数据 驱动 相 结合 的 处 理 方 
法 ， 期 望 驱 动 是 一 种 自 顶 同 下 的 分 析 方 法 ， 使 用 “脚本 ”， 数 据 驱 动 是 一 
种 自 底 加 上 的 分 析 方 法 ， 和 直接 从 输入 文本 开始 分 析 。 这 种 期 望 驱动 与 数 
据 驱 动 相 结合 的 处 理 方 法 被 后 来 的 许多 信息 抽取 系统 采用 。 











从 20 世 纪 80 年 代 末 开始 ， 信 息 抽 取 研 究 轩 勃 开 展 起 来 ， 这 主要 得 益 
于 消息 理解 系列 会 议 (Message Understanding Conference， 简 称 MUC ) 
的 召开 。MUC 系 列 会 议 使 得 信息 抽取 发 展 成 为 自然 语言 处 理 领 域 一 个 
重要 分 文 ， 并 一 直 推 动 这 一 领域 的 研究 同 前 发 展 。 








从 1987 年 开始 到 1998 年 ，MUC 会 议 共 举 行 了 七 届 ， 它 由 美国 国防 
高 级 研究 计划 委员 会 (the Defense Advanced Research Projects Agency, 
简称 DARPA) 资助 。MUC 的 显著 特点 并 不 在 于 只 是 单纯 地 召开 会 议 ， 
而 在 于 在 会 议 期 间 还 要 对 信息 抽取 系统 进行 评测 。 只 有 参加 信息 抽取 系 
统 评测 的 单位 才 被 允许 参加 MUC 会 议 。 在 每 次 MUC 会 议 前 ， 会 议 组 织 
者 首先 同 各 参加 单位 提供 样 例 的 消 恩 文本 和 有 关 抽 取 任 务 的 说 明 ， 然 后 
各 参加 单位 开发 能 够 处 理 这 种 消息 文本 的 信息 抽取 系统 。 在 正式 会 议 
前 ， 各 参加 单位 运行 各 目的 系统 处 理 给 定 的 测试 消息 文本 集合 。 各 参加 
单位 都 要 遵循 MUC 系 列 会 议 建立 的 术语 ， 他 们 把 信息 抽取 最 终 的 输出 
结果 称 为 “模板 ”(Template) ， 把 模板 中 的 填 即 项 称 为 “ 槽 ”〈Slot) ， 把 
把 信息 抽取 过 程 中 使 用 的 匹配 规则 称 为 “模式 ”(Pattern) ， 把 要 提取 的 
特定 事件 或 关系 称 为 "场景 ”(Scenario ) 。 而 “领域 ”(Domain) 概念 要 





宽泛 一 些 ， 通 常 一 个 领域 可 以 包含 多 个 场景 。 例 如 ， 在 金融 这 个 “ 领 
域 ”的 新 闻 中 ， 可 能 包含 有 建立 合资 公司 场景 、 股 票 转让 场景 等 很 多 
个 “场景 ” » 


MUC 在 评测 时 ， 把 系统 的 输出 结果 与 手工 标注 的 标准 结果 相对 照 
进行 比较 ， 从 而 得 到 最 终 的 评测 结果 。 在 评测 结束 之 后 ， 最 后 才 召 开 所 
请 的 “会 议 "， 在 会 议 上 由 参加 单位 交流 目 己 的 想法 和 感受 。 所 以 ，MUC 
的 “会 议 " 是 由 “评测 ”驱动 的 。 





这 种 评测 驱动 的 会 议 模 式 后 来 得 到 广泛 认可 ， 在 自然 语言 处 理 的 其 
他 领域 也 召开 了 类 似 的 评测 驱动 的 会 议 。 例 如 ， 从 1992 年 开始 举行 的 文 
本 检索 会 议 TREC 等 ， 也 是 评测 驱动 的 会 议 。 








从 历次 MUC 会 议 ， 可 以 清楚 地 看 到 信息 抽取 技术 发 展 的 历程 。 





1987 年 5 月 举行 的 首届 MUC-1 会 议 基本 上 是 探索 性 的 ， 没 有 定义 明 
确 的 任务 ， 也 没有 制定 评测 标准 。 总 共有 6 个 系统 参加 ， 所 处 理 的 文本 
是 海军 军事 情报 ， 每 个 系统 的 输出 格式 都 不 一 样 。 


MUC-2 于 1989 年 5 月 举行 ， 共 有 8 个 系统 参加 ， 处 理 的 文本 类 型 与 
MUC-1 一 样 。MUC-2 开 始 明 确 地 定义 任务 ， 规 定 了 模板 以 及 酸 的 填充 
规则 ， 抽 取 任 务 被 明确 地 定义 为 一 个 模板 填充 的 过 程 。 


MUC-3 于 1991 年 5 月 举行 ， 共 有 15 个 系统 参加 ， 抽 取 任 务 是 从 新 闻 
报告 中 抽取 拉丁 美洲 恐怖 事件 的 信息 ， 和 定义 的 抽取 模板 由 18 个 模 组 成 。 
从 MUC-3 开 始 引 入 正式 的 评测 标准 ， 其 中 借用 了 信息 检索 领域 采用 的 一 
些 评测 指标 ， 如 召回 紊 和 准确 率 等 。 


MUC-4 于 1992 年 6 月 举行 ， 共 有 17 个 系统 参加 ， 任 务 与 MUC-3 一 


样 ， 仍 然 是 从 新 闻 报 告 中 抽取 灵 怖 事件 信息 。 但 抽取 模板 变 得 更 加 复 


, 
> 


杂 ， 总 共 由 24 个 槽 组 成 。 从 这 次 会 议 开 始 MUC 被 纳入 TIPSTER 文 本 项 
目 3。 


MUC-5 于 1993 年 8 月 举行 ， 共 有 17 个 系统 参加 : 美国 14 个 ， 英 国 、 
加 拿 大 、 日 本 各 一 个 。 此 次 会 议 设 计 了 两 个 目标 场景 : 一 个 是 金融 领域 
中 的 公司 合资 情况 ， 一 个 是 微 电 子 技术 领域 中 四 种 必 片 制造 处 理 技术 的 
进展 情况 。 除 英语 外 ，MUC-5 还 对 日 语 信息 抽取 系统 进行 了 测试 。 在 本 
次 会 议 上 ， 组 织 者 尝试 采用 平均 填充 错误 率 (Error Per Response Fill, 
简称 ERR) 作为 主要 评价 指标 。 与 以 前 相 比 ，MUC-5 抽 取 任 务 的 复杂 性 
更 大 ， 比 如 公司 合资 场景 需要 填充 11 种 子 模板 总 共 47 个 槽 ， 仅 仅 任 务 描 
述 文 档 束 有 40 多 页 。MUC-5 的 模板 和 槽 填充 规范 是 MUC 系 列 评测 中 最 
复杂 的 。MUC-5 的 一 个 重要 创新 是 引入 了 骨 套 的 模板 结构 。 信 息 抽取 模 
板 不 再 是 局 平 结 构 〈flat structure〉 的 单个 模板 ， 而 是 借鉴 面 同 对 象 和 框 
架 知 识 表 示 的 思想 ， 由 多 个 子 模板 骨 套 组 成 。 模 板 中 每 个 槽 的 取 值 除了 
可 以 是 文本 串 〈 如 公司 名 ) 、 格 式 化 串 〈 如 将 日 期 、 时 间 、 金 额 等 文本 
描述 转化 为 某 种 规范 形式 ) 、 有 限 集合 中 的 元 素 〈 如 组 织 类 型 可 以 分 为 
公司 、 政 府 部 门 、 研 究 机 构 等 ) 外 ， 还 可 以 是 指向 另 一 个 子 模板 的 指 
针 。 


























MUC-6 于 1995 年 9 月 举行 ， 训 练 时 的 目标 场景 是 劳动 争议 的 协商 情 
况 ， 测 试 时 的 目标 场景 是 公司 管理 人 员 的 职务 变动 情况 ， 共 有 16 家 单位 
参加 了 这 次 会 议 。MUC-6 的 评测 更 为 细致 ， 强 调 系 统 的 可 移植 性 以 及 对 
文本 的 深层 理解 能 力 。 除 了 原 有 的 场景 模板 (Scenario Templates) 填充 
任务 之 外 ， 又 引入 三 个 新 的 评测 任务 : 命名 实体 (Named Entity) 识 
别 、 共 指 (Coreference〉 KAME RICA (Template Element) JH 
充 等 。 命 名 实体 识别 任务 主要 是 要 识别 出 文本 中 出 现 的 专 有 名 称 和 有 意 








义 的 数量 短语 等 合 名 实体 并 加 以 归 类 ; 共 指 关系 确定 任务 是 要 识别 出 给 
定 文 本 中 的 参照 表达 式 ， 并 确定 这 些 表达 式 之 间 的 共 指 关系 ; 模板 元 素 
填充 任务 是 要 识别 出 特定 类 型 的 所 有 实体 以 及 它们 的 属性 特征 。 








MUC-7 于 1998 年 4 月 举行 。 训 练 时 的 目标 场景 是 飞机 失事 事件 ， 测 
试 时 的 目标 场景 是 航天 器 〈( 火 第 /导弹 ) 发 射 事件 。 除 MUC-6 已 有 的 四 
项 评测 任务 外 ，MUC-7 又 增加 了 一 项 新 任务 : 评测 模板 之 间 的 关系 ， 其 
目的 在 于 确定 实体 之 间 与 特定 领域 无 关 的 那些 关系 。 共 有 18 家 单位 参加 
了 MUC-7 评 测 。 值 得 注意 的 是 ， 在 MUC-6 和 MUC-7 中 ， 开 发 者 只 允许 
用 四 周 的 时 间 进 行 系统 的 移植 ， 而 在 先前 的 评测 中 常常 允许 开发 者 有 6 
一 9 个 月 的 移植 时 间 。 




















言 妃 抽取 经 过 二 十 多 年 尤其 是 最 近 十 多 年 的 发 展 ， 已 经 成 为 自然 语 
言 处 理 领 域 一 个 重要 的 分 文 ， 在 信息 抽取 研究 中 提出 的 一 些 思想 ， 例 
如 ， 通 过 系统 化 的 、 大 规模 的 定量 评测 推动 研究 同 前 发 展 ， 局 部 分 析 技 
术 的 有 效 性 ， 快 速 NLP (Natural Language Processing) 系统 开发 的 必要 
性 ， 知 识 工程 研究 以 及 软件 工程 技术 的 重要 性 ， 等 等 ， 这 些 思想 对 于 自 
然 语言 处 理 的 其 他 领域 ,都 是 很 有 局 发 的 。 信 息 抽取 研究 独特 的 发 展 轨 
迹 ， 极 大 地 推动 了 上 自然 语言 处 理 研究 的 发 展 ， 启 发 着 自然 语言 处 理 的 研 
究 人 员 面 同 实 际 的 应 用 ， 重 新 考虑 他 们 的 研究 重点 ， 开 始 重 视 解 决 过 去 
曾 被 忽视 的 一 些 深 层 问 题 ， 如 语义 特征 标注 、 共 指 消 解 、 篇 章 分 析 等 
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目前 ， 有 两 个 最 主要 的 因素 影响 着 信息 抽取 技术 的 广泛 应 用 。 一 个 
因素 是 信息 抽取 系统 性 能 ， 一 个 因素 是 系统 的 可 移植 能 力 。 今 后 信息 抽 
取 的 研究 将 紧 紧 围绕 如 何 克 服 和 解决 这 两 个 因素 引起 的 问题 而 展开 ， 重 
点 解决 知识 获取 、 篇 章 分 析 、 高 效 句法 分 析 等 问题 ， 不 断 提 高 信息 抽取 
系统 的 性 能 、 增 强 信息 抽取 系统 的 可 移植 能 力 。 


A= ” 目 动 文摘 


本 节 讨 论 单 文 档 与 多 文档 的 自动 文摘 (automatic text 
summarization) ， 介 绍 自动 文摘 的 主要 方法 。 


早 在 20 志 纪 50 年 代 末 和 60 年 代 初 ， 卢 恩 和 埃 德 蒙 森 (Edmundson) 
束 采 用 计算 机 进行 了 自动 文摘 的 试验 。 但 由 于 目 动 文摘 难度 很 大 ， 不 久 
MILE PAS o 
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上 文档 与 在 线 文本 数据 库 不 断 激 增 ， 计 算 机 目 动 文摘 重新 引起 了 人 们 的 
重视 。 

















所 谓 目 动 文摘 ， 就 是 从 一 个 或 多 个 文本 中 上 自动 地 摘 取 包含 了 原文 中 
最 重要 信息 的 部 分 。 如 果 从 一 个 文本 中 摘 取 ， 就 是 单 文档 目 动 文摘 ， 如 
果 从 多 个 文档 中 摘 取 ， 就 是 多 文档 目 动 文摘 。 




















国外 自动 文摘 的 实验 说 明 ， 自 动 文摘 的 长 度 最 好 不 要 超过 被 摘 原 文 
长 度 的 35%， 但 也 不 要 低 于 被 摘 原文 长 度 的 15%。 如 果 文 摘 过 长 ， 束 失 
之 元 繁 ， 如 果 文 摘 太 短 ， 就 失 之 单薄 。 因 此 ， 我 们 应 当 把 文摘 的 长 度 控 
制 在 适当 的 范围 之 内 。 





被 摘 的 文本 包括 多 媒体 文本 文件 、 在 线 文 本 文件 、 超 文本 等 多 种 形 
A. 


目前 公认 的 摘要 类 型 包括 指示 性 摘要 、 信 息 性 的 摘要 和 抽取 性 摘 


要 。 


指示 性 摘要 提供 原文 的 主要 思想 ， 但 并 不 提供 原文 的 任何 内 容 。 
言 恩 性 的 摘要 提供 原文 中 经 和 党 被 别人 引用 的 信息 片段 。 


抽取 性 摘要 从 原文 中 摘录 出 单词 、 句 子 等 等 ， 然 后 再 对 这 些 单词 或 
者 句子 进行 重新 组 合 ， 生 成 摘要 。 





一 般 说 来 ， 目 动 文 摘要 经 过 三 个 步骤 ， 主 题 识别 ， 主 题 融 合 ， 文 摘 
生成 。 分 述 如 下 : 


IH J X M 
步骤 一 : 主题 识别 


自动 文摘 的 第 一 个 步骤 是 主题 识别 Ctopicidentification) 。 主 题 是 
我 们 写 文章 或 者 讨论 问题 时 的 主要 话题 。 一 旦 系统 识别 了 文章 中 的 最 重 
要 单位 《单词 、 句 子 、 段 沙 、 等 等 ) ， 就 可 以 简单 的 把 它们 排列 出 来 ， 
从 中 抽取 信息 ， 或 者 以 图 表 的 方式 展示 它们 ， 提 供 图 表 式 的 摘要 ， 这 
样 ， 我 们 就 可 以 说 系统 识别 了 文章 的 主题 。 在 通常 的 情况 下 ， 主 题 识别 
需要 多 种 技术 互相 补充 。 


计算 机 主题 识别 的 时 候 ， 所 提取 的 信息 是 不 连续 的 ， 信 息 中 省 略 了 
原文 主题 连接 的 关联 词语 ， 而 且 有 重复 摘 取 及 遗漏 的 情况 ， 所 以 文摘 的 
可 读 性 较 差 ， 并 且 不 连 员 。 因 此 自动 文摘 系统 有 一 个 步 又 专门 用 来 重新 
组 合 提取 出 来 的 摘要 信息 ， 生 成 具有 可 读 性 的 摘要 。 在 基于 信息 抽取 的 
摘要 实例 中 ， 摘 要 生成 可 以 简单 的 认为 是 “修饰 "从 原文 中 摘 取 的 片断 ， 
使 之 成 为 连贯 的 文本 。 


为 了 完成 这 个 步骤 ， 几 乎 所 有 的 自动 摘要 系统 都 采用 了 多 个 独立 的 


识别 模块 。 每 一 个 独立 模块 者 对 输入 的 源 文本 单词、 句子 、 段 落 ) XE 
行 打 分 ; 然后 用 一 个 综合 模块 对 所 有 打分 模块 所 打 的 分 数 进行 综合 评 
佑 ， 最 后 得 到 一 个 分 数 排行 。 系 统 可 以 根据 用 户 所 需要 的 摘要 长 度 ， 按 
分 数 排行 从 高 到 低 的 顺序 ， 选 择 自 动 摘 取出 来 的 文摘 提供 给 用 户 。 














在 目 动 文 摘 中 ， 摘 取 的 信息 以 什么 为 基本 单位 是 一 个 比较 普 过 的 问 
题 。 大 多 数 摘要 系统 部 是 以 句子 为 基本 单位 ， 有 的 学 者 认为 ， 以 子 句 
(clause) 为 基本 单位 进行 目 动 摘要 ， 可 以 获得 更 多 的 信息 。 有 的 学 者 
认为 ， 与 重要 的 句子 紧 紧 相连 的 句子 可 以 作为 摘要 人 句 的 重要 参考 信息 ， 
这 样 可 以 减少 摘要 出 来 的 句子 的 指称 的 不 确定 性 。 














主题 识别 的 性 能 一 般 用 召回 率 和 准确 率 来 评估 。 给 定 一 个 源 文本 ， 
分 别 做 上 自动 摘要 和 人 工 摘要 ， 然 后 把 系统 的 摘要 和 人 工 的 摘要 进行 比 
较 ， 确 定 目 动 文摘 系统 所 得 出 的 结果 与 人 工 所 得 出 的 结果 的 相似 上 度 ， 计 
算 其 准确 紊 和 召回 率 。 





主题 识别 有 如 下 方法 : 


根据 位 置 来 识别 主题 : 《不同 体裁 的 文章 的 结构 在 位 置 上 都 有 一 定 
的 规律 。 一 般 说 来 ， 在 文章 的 头 信 息 、 标 题 或 第 一 个 自然 段 中 ， 往 往 含 
有 文章 的 重要 信息 。 例 如 ， 对 于 新 闻 和 报纸 来 说 ， 第 一 个 自然 段 往往 包 
售 重 要 人 信息， 因此， 最 简单 的 摘要 方法 就 是 摘 取 文 章 的 第 一 个 自然 段 。 
1997 年 ， 托 依 伏 尔 〈Teufel) MER (Moens) 采用 根据 位 置 识别 主题 
的 方法 ， 从 报纸 ， 自 然 科学 和 技术 类 文章 中 抽取 33% 的 句子 作为 摘要 ， 
效果 民 好 。 














由 于 不 同体 裁 的 文章 主题 所 在 的 位 置 各 有 差异 ， 为 了 自动 确立 最 佳 
的 位 置 和 取得 高 质量 的 摘要 ， 霍 维 (Hovy) 和 林 (Lin) 在 1997 年 定义 





了 面 癌 某 个 领域 和 特定 体裁 的 最 优 位 置 策 略 COptimum Position Policy, 
PROPP) ， 以 此 作为 句子 排名 的 依据 ， 并 且 质 述 了 构建 最 优 位 置 的 方 
s 


根据 线索 词 来 识别 主题 在 一 定 的 体裁 中 ， 有 一 些 单 词 或 者 词语 
可 以 暗示 接 下 来 将 有 重要 的 句子 出 现 ， 因 此 ， 这 些 句 子 束 应 该 是 被 摘 取 
出 来 的 对 象 ， 这 样 的 单词 或 者 词语 叫做 “线索 词 ”(cue phrase 
indicators) 。 例 如 ， 在 英语 中 ，significant (“重要 的 ”) , in this paper we 
show 〈“ 本 文中 我 们 论述 了 ”) 等 词语 承 是 这 样 的 线索 词 ， 它 们 后 面 出 现 
的 句子 往往 可 以 作为 摘 取 的 对 象 。1997 年 ， 托 依 伏 尔 和 摩 恩 利用 他 们 从 
某 一 科学 体裁 的 文本 中 手工 选取 的 1423 个 线索 词 来 进行 自动 文摘 ， 获 得 
了 54% 的 正确 率 与 召回 率 。 当 然 ， 这 些 线索 词 提 供 的 线索 的 好 坏 不 完全 
一 样 ， 因 此 ， 他 们 还 手工 给 每 一 个 线索 词 一 个 分 值 〈 无 论 正 面 或 者 负 
面 ) ， 用 来 计算 线索 词 的 权重 。1999 年 ， 托 依 伏 尔 和 摩 恩 又 对 他 们 的 理 
论 进行 了 扩展 ， 他 们 认为 ， 线 索 词 不 只 是 暗示 了 有 关 人 句子 的 重要 性 ， 而 
且 还 能 暗示 某 个 句 群 或 者 段 沙 的 在 文章 中 的 作用 ， 例 如 ， 文 章 的 目的 、 
背景 、 解 决 办 法 、 结 论 、 主 张 等 。 因 此 ， 他 们 使 用 线索 词 来 预示 文章 中 
重要 的 段 沙 或 句 群 。 









































根据 词语 频率 的 特异 性 来 识别 主题 : 在 文本 中 ， 有 些 单词 出 现 的 
频率 非常 高 ， 有 的 单词 出 现 的 频率 一 般 高 ， 而 有 的 单词 出 现 的 频率 很 
低 ， 单 词 的 出 现 频 率 遵从 齐 夫 定 律 ， 齐 夫 定 律 的 曲线 可 以 描述 文本 中 单 
词 的 正常 分 布 状 态 。 如 果 竺 摘 文 本 中 茶 些 词语 的 频率 异 于 这 样 的 正 币 状 
态 ， 那 么 包含 这 样 词语 的 句子 很 有 束 具 有 特异 性 ， 它 们 很 可 能 束 是 显示 
主题 的 很 重要 的 句子 ， 应 当 作 为 摘 取 的 对 象 。 











根据 文章 标题 和 查询 提问 来 识别 主题 。 在 文章 的 标题 或 者 在 文章 
页 首 的 文字 中 含有 的 词语 往往 预示 的 文章 的 之 主题 ,用户 用 于 查询 提问 








的 词语 也 往往 预示 了 文章 的 主题 ， 这 些 词 语 叫做 “期 望 词 ”(desirable 
words) 。 可 以 根据 期 望 词 为 线索 ， 对 于 句子 的 重要 性 进行 打分 ， 从 而 
识别 文章 的 主题 。 











根据 词语 之 间 的 连贯 性 来 识别 主题 : 文本 中 句子 所 包含 的 词语 的 
连 员 性 可 以 通过 复 指 、 共 指 、 同 义 关 系 、 语 义 关 系 等 方式 表示 出 来 ， 句 
子 中 所 包 会 的 词语 的 连贯 度 越 高 ， 句 子 练习 就 越 紧密 ， 而 联系 越 紧 密 的 
句子 就 有 可 能 越 重要 。 可 以 根据 句子 的 连贯 性 打分 ， 从 而 识别 文章 的 主 


jel 





玛 尼 (Mani) MERLE (Bloedorn) 认为 文本 是 一 个 图 表 ， 文 本 
中 的 词 就 是 图 表 的 结 点 ， 结 点 之 间 的 弧 线 代表 了 词语 之 间 的 连贯 性 ， 可 
以 通过 弧 线 来 识别 图 表 。 


根据 话语 结构 来 识别 主题 : 1987 年 ， 曼 (W. Mann) MARR CS. 
Thompson) 在 《修辞 结构 理论 : 一 种 文本 组 织 的 理论 》 (Rhetorical 
Structure Theory: A Theory of Text Organization) 一 文中 ， 提 出 “修辞 结 
构 理论 ”(Rhetorical Structure Theory， 简 称 为 RST) 。 这 是 一 种 基于 文 
本 局 部 之 间 关 系 的 关于 文本 组 织 的 描述 理论 。 





例如 ， 研 究 下 面 的 两 个 段落 : 


a. I love to collect classic automobiles. My favorite car is my 1899 
Duryea.《〈 我 喜欢 收集 古典 汽车 。 我 最 中 意 的 汽车 是 我 那 辆 1899 年 的 
Duryea 汽 车 。) 











b. I love to collect classic automobiles. My favorite car is my 1999 
Toyota.，【〔 我 言 欢 收集 古典 汽车 。 我 最 中 意 的 汽车 是 我 那 辆 1999 年 的 “让 
田 * 汽 车 。) 














段 沙 a 是 有 意义 的 ， 它 表示 了 说 话 人 喜欢 1899 年 的 Duryea 汽 车 的 事 
实 ， 这 个 事实 很 自然 地 紧 接 着 他 喜欢 古典 汽车 的 事实 。 而 段落 b 则 是 有 
缺陷 的 。 这 种 缺陷 并 不 是 单个 句子 的 问题 ， 段 落 b 中 的 单个 的 句子 单独 
看 起 来 都 是 完美 的 ， 缺 陷 在 于 它们 在 意思 上 的 结合 不 好 ，1999 年 的 * 丰 
田 ? 汽 车 显然 不 是 古典 汽车。 不 过 ， 两 个 句子 顺序 排列 的 事实 暗示 它们 
之 间 具 有 某 种 连贯 关系 ， 而 段落 a 和 段落 b 的 连贯 关系 是 不 同 的 。 对 于 段 
落 a 来 说 ， 这 种 关系 具有 详 述 (elaboration) 关系 的 特征 。 而 对 于 段落 b 
来 说 ， 这 种 关系 则 具有 对 照 Ccontrast) 关系 的 特征 ， 因 此 ， 上 段落 b 应 当 
更 恰当 的 表示 为 : 








I love to collect classic automobiles. However, my favorite car is my 
1999 Toyota. “我 喜欢 收集 古典 汽车 。 然 而 ， 我 最 中 意 的 汽车 是 我 那 辆 
1999 年 的 “丰田 ”汽车 。) 











XE, “however” 明 显 地 将 对 照 关 系 的 信号 传递 给 读者 ， 这 个 段落 
在 意思 上 也 就 顺畅 多 了 。 


从 理论 构建 的 一 开始 ， 修 辞 结构 理论 的 黄 基 者 就 认为 ， 话 语 的 结构 
比 其 他 任何 事物 都 更 反映 说 者 的 意图 和 目标 ， 而 意图 普 吉 是 有 层次 的 ; 
注意 和 意图 被 认为 是 文本 中 相互 独立 又 相互 作用 的 方面 语言 形式 、 语 
言 功能 和 话语 结构 互相 联系 的 方式 是 一 种 松散 的 相互 制约 的 方式 ， 而 不 
是 某 种 类 似 于 “一 一 映 冉 ”的 方式 。 因 此 并 不 总 有 什么 特定 的 词汇 或 语法 
形式 惟一 地 标记 结构 特征 。 








修辞 结构 理论 的 核心 是 修辞 关系 的 概念 。 修 辞 关 系 (Rhetorical 
Relation) 是 存在 于 两 个 互 不 重 登 的 文本 路段 (Text Span) 之 间 的 关系 
《当然 也 有 一 些 例外 ) ， 这 两 个 文本 路 段 一 个 叫 “ 核 心音 
元 ”(Nucleus) ， 一 个 叫 “ 卫 星 单 元 ”(Satellite) 。 这 种 对 核心 和 卫星 的 





区 分 来 自 经 验 观察 。 例 如 ， 在 上 面 的 段落 a 中 ,，“I love to collect classic 
automobiles” 这 个 片断 是 核心 单元 , “My favorite car is my 1899 
Duryea” 这 个 片断 是 卫星 单元 。 核 心 单元 与 卫星 单元 的 划分 说 明 ， 许 多 

修 秤 关系 是 非 对 称 的 。 这 里 第 二 个 片断 是 根据 第 一 个 片断 来 解释 的 ， 但 
是 反之 则 不 然 。 下 面 我 们 将 看 到 并 不 是 所 有 的 修辞 关系 都 是 非 对 称 的 。 

修辞 结构 关系 是 根据 它们 施加 于 核心 、 外 围 、 以 及 核心 和 外 围 的 结合 处 
的 约束 来 定义 的 。 











1997 年 ， 马 尔 库 (Marcu) 根据 修辞 结构 理论 ， 提 出 了 一 个 复杂 的 
自动 文摘 方法 ， 这 个 方法 使 用 修辞 结构 理论 来 识别 待 摘 文 本 潜在 的 话语 
中 心 ， 对 句子 进行 打分 ， 并 利用 话语 的 框架 和 内 容 的 树 形 图 ， 把 多 种 方 
法 相互 结合 起 来 识别 文章 的 主题 。 马 尔 库 的 算法 对 美国 自然 科学 文本 的 
目 动 摘要 几乎 达到 了 人 工 摘要 的 水 平 。 








使 用 多 种 方法 相 结 合 的 算法 来 识别 主题 。 ” 目 动 文摘 的 研究 人 员 发 
现 ， 不 同 的 上 自动 摘要 方法 基本 都 被 及 用 过 了 ， 实 践 证 明 没有 哪 一 种 方法 
是 最 好 的 ; 在 多 数 情况 下 ， 由 于 每 一 种 方法 都 有 目 己 的 优点 ， 把 多 种 方 
法 结合 起 来 就 可 以 取得 更 好 的 成 绩 。 


1955F, Fe Rot (Kupiec) ~ MAF (Pedersen) 和 陈 (Chen) 在 
他 们 里 程 碑 式 的 工作 中 ， 训 练 了 一 个 贝 叶 斯 概率 分 类 器 ， 他 们 通过 对 段 
沙 的 位 置 、 线 索 词 的 指示 作用 、 词 语 的 频率 、 大 写字 母 的 词 以 及 句子 的 
长 度 等 特征 的 统计 分 析 结 果 ， 计 算 了 任何 一 个 句子 在 文摘 中 出 现 的 可 能 
性 。 他 们 发 现 ， 段 落 的 位 置 特征 在 自动 文摘 中 可 以 提供 33% 的 准确 率 ， 
通过 线索 词 的 方法 可 以 得 到 29% 的 准确 紊 。 但 是 两 种 办 法 结合 起 来 却 只 
能 达到 42% 的 准确 紊 ， 比 位 置 特征 与 线索 词 日 个 相 加 (33%+29%) 要 低 
20%。 如 果 把 上 述 的 位 置 特征 、 线 索 词 、 频 率 特 异性 、 文 章 标题 和 查询 
提问 、 连 贯 性 5 种 方法 同时 混合 采用 ， 也 只 有 429% 的 准确 率 。 











同样 利用 贝 叶 斯 概率 分 类 ， 奥 纳 CAone) 等 人 发 现在 单一 的 体裁 
中 ， 不 同 的 报纸 也 要 采用 不 同 的 特征 相 结合 的 办 法 ， 才 能 取得 较 好 的 效 


步骤 2， 主题 融合 


如 果 只 是 把 使 用 上 述 方法 摘出 来 的 结果 排列 起 来 ， 不 加 进一步 的 曾 
释 (interpretation) ， 那 么 ， 这 样 得 到 的 系统 只 能 算是 一 个 摘录 系统 
Cabstract-type system) ， 而 不 能 算是 一 个 摘要 系统 Cextract-type 
summarization system) 。 在 阐释 时 ， 系 统 要 把 主题 识别 作为 一 个 重要 的 
因素 融合 起 来 了 ， 使 用 新 的 术语 和 新 的 形式 来 表达 摘要 的 内 容 ， 在 进行 
这 样 的 表达 时 ， 可 能 使 用 原文 中 没有 的 概念 和 词语 。 这 个 步骤 叫做 主题 


融合 。 


事实 证 明 ， 如 果 系 统 没有 预先 加 载 和 一 领域 的 相关 知识 ， 那 么 残 很 
难 执 行 曾 释 功能 。 在 目前 的 技术 水 平 下 ， 由 于 获得 茶 一 领域 的 知识 还 非 
常 困难 ， 所 以 ， 我 们 只 能 在 一 个 很 小 的 领域 进行 曾 释 。 目 前 还 没有 上 自动 
文摘 系统 能 够 从 源 文本 中 自动 地 获取 各 个 领域 的 知识 ， 从 而 进行 这 样 的 
阐释 。 














在 阐释 中 使 用 模板 ， 对 目 动 文摘 看 起 来 可 能 会 有 帮助 。 但 是 ， 建 并 
这 种 模板 结构 并 且 正 确 地 填充 它们 是 很 困难 的 ， 目 前 来 说 ， 我 们 还 不 能 
利用 模板 来 进行 大 规模 的 自动 文摘 。 


1999 年 ， 霍 维 (Hovy) 和 林 (Lin) 使 用 主题 签名 (topic 
signature) 和 单词 之 间 的 关联 技术 进行 主题 的 融合 。 他 们 通过 主题 签名 


的 重合 情况 对 句子 进行 打分 ， 运 用 主题 签名 来 进行 主题 识别 ， 他 们 又 以 
中 心 词 来 代 丛 句子 内 的 多 个 单词 ， 来 进行 主题 阐释 。 通 过 自动 构建 主题 
签名 ， 他 们 克服 了 主题 阐释 时 的 知识 短缺 问题 。 








目前 ， 领 域 知识 的 自动 获取 仍然 阻碍 了 阐释 的 进行 ， 这 是 自动 文摘 
阐释 的 瓶 宽 问题 。 


步骤 3: 文摘 生成 





自动 文摘 的 第 三 步 是 文摘 的 生成 。 当 文摘 的 内 容 通过 摘录 或 抽取 技 
术 提 取出 来 之 后 ， 就 要 把 它们 转化 为 目 然 语言 输出 给 用 户 ， 为 了 便于 用 
户 阅 读 和 理解 ， 有 必要 对 这 些 零 星 的 、 简 单 的 摘要 进行 加 工 ， 通 过 文本 
规划 、 句 子规 划 ， 最 后 生成 流畅 可 读 的 自然 语言 句子 。 这 个 步骤 就 是 文 
摘 生 成 。 





对 于 单纯 的 摘录 系统 Cabstract-type system) ， 只 要 把 摘 取 出 来 的 结 
果 列 举 出 来 就 行 了 ， 不 需要 进行 文摘 生成 。 不 过 ， 在 这 样 的 情况 下 ， 不 
管 摘 取 的 结果 是 按 原 来 的 顺序 排列 还 是 按 句 子 得 分 的 高 低 进 行 排列 ， 最 
后 得 到 的 文本 一 般 都 是 不 流畅 的 。 





赫 尔 斯 特等 人 提出 了 一 种 平滑 算法 ， 可 以 识别 和 修复 最 典型 的 摘要 
不 流畅 现象 。 玛 尼 ， 盖 菊 〈Gates) 和 布 洛 多 恩 在 1999 年 提出 了 一 个 摘 
要 修订 方案 ， 他 们 对 提取 出 来 的 摘要 片断 进行 组 合 ， 可 以 生成 简单 的 、 
可 读 性 较 好 的 摘要 文本 。 








在 文摘 生成 中 ， 文 本 压缩 是 一 种 很 有 前 景 的 方法 。 乃 伊 特 和 马尔 库 
使 用 期 望 最 大 算法 (Expectation Maximum， 人 简称 EM 算法 ) 训练 系统 ， 


压缩 句子 的 句法 分 析 树 ， 可 以 生成 一 个 单一 、 简 单 的 句子 。 根 据 他 们 的 
方法 ， 两 个 句子 可 以 压缩 成 一 个 句子 ， 三 个 句子 可 以 压缩 成 二 个 甚至 一 
个 句子 ， 从 而 进行 文摘 的 生成 。 





1999 年 ， 麦 克文 (Mckeown) 和 研 (Jing〉 从 文本 生成 的 角度 来 提 
取 摘 要 。 他 们 认为 ， 摘 要 常常 是 被 摘 文 本 中 的 一 些 零星 的 前 切片 断 组 合 
而 成 的 ， 组 合 时 有 必要 确定 这 些 句子 片断 的 重要 性 ， 根 据 重要 性 把 它们 
组 织 成 符合 语法 的 段落 。 使 用 这 样 的 方法 得 到 的 自动 文摘 能 够 较 准 确 地 
代表 被 摘 文 本 的 内 容 。 





目前 研制 的 大 多 数 自 动 文摘 系统 只 包括 了 步骤 1: 主题 识别 。 








上 述 的 单 文档 的 自动 文摘 已 经 是 很 困难 的 了 。 如 采 对 多 个 主题 相关 
的 文档 进行 摘要 ， 更 加 具有 挑战 性 。 

















多 文档 目 动 文摘 古 目前 自动 文摘 研究 的 一 个 热点 ， 可 以 用 于 海量 信 
县 的 自动 汇总 ， 尤 其 可 以 用 于 汇总 互联 网 上 针对 茶 一 特定 事件 的 来 自 不 
同文 档 的 多 种 信息 。 例 如 ， 当 世界 上 发 生 重 大 的 事件 时 ， 往 往 会 有 不 同 
来 源 、 不 同方 面 的 报道 ， 读 者 如 果 想 了 解 事件 发 生 的 详细 情况 ， 需 要 阅 
读 大 量 的 相关 报道 ， 这 要 花费 很 多 的 时 间 和 精力 。 如 果 我 们 使 用 多 文档 
文摘 技术 ， 把 有 关 茶 个 事件 的 大 量 信 息 汇 总 在 较 短 的 文摘 之 中 ， 就 可 以 
大 大 地 节省 读者 阅读 大 量 报道 的 时 间 。 























多 文档 目 动 文摘 结束 还 可 以 应 用 于 历史 事件 的 整理 ， 连 续 事件 的 奶 
蹊 。 例 如 ， 对 于 事件 的 持续 关注 ， 事 件 的 发 生 、 发 展 到 结束 的 各 个 阶段 
的 相关 信息 ， 痢 可 以 使 用 多 文档 目 动 文摘 摘 取 事件 的 主要 内 容 ， 并 且 把 
这 些 内 容 按照 事件 发 展 的 顺序 组 织 起 来 ， 使 读者 通过 阅读 文摘 ， 迅 速 了 
解 整个 事件 的 轮廓 。 基 于 主题 查询 的 多 文档 文摘 则 可 以 进一步 考虑 用 户 











的 碍 询 要 求 ， 从 与 特定 事件 的 相关 的 大 量 文档 中 ， 目 动 生成 用 户 需 要 的 
相关 内 容 。 


在 对 多 个 文档 进行 文摘 时 ， 为 了 避免 元 余 ， 必 须 辨 认 和 找 出 这 些 文 
档 的 主题 之 间 是 否 有 重 登 ， 还 要 处 理 好 多 个 文档 在 摘要 的 时 候 出 现 的 不 
一 致 性 ， 如 果 有 必要 ， 可 以 通过 时 间 线 索 对 摘 取 进来 的 事件 进行 组 织 。 
鉴于 这 些 原 因 ， 多 文档 目 动 文摘 没有 单 文档 上 自动 文摘 发 展 得 快 。 




















2001 年 ， 马 尔 库 和 盖 尔 布 (Gerber) 使 用 一 个 简单 的 程序 对 报纸 类 
体裁 的 文章 进行 多 文档 文摘 ， 生 成 的 文摘 十 分 完善 ， 令 人 满意 。 当 然 ， 
对 于 更 加 复杂 的 体裁 ， 比 如 传记 类 文体 和 对 事物 的 描述 性 的 文体 ， 这 样 
简单 的 程序 就 显得 无 能 为 力 了 。 





看 来 ， 多 文档 的 自动 文摘 的 实用 化 ， 还 有 很 长 的 一 段 路 要 走 。 





自动 文摘 研究 中 最 党 涉及 到 的 是 目前 国际 上 最 为 重要 的 文摘 评测 会 
议 : 一 个 会 议 叫 做 文档 理解 会 议 (Document Understanding Conference， 
简称 DUC) ， 一 个 会 议 叫做 文本 分 析 会 议 〈Text Analysis Conference, 
简称 TAC) 。 这 两 个 会 议 都 确定 了 文档 摘要 任务 。DUC 从 2001 年 以 来 进 
行 了 多 种 文档 摘要 任务 的 评测 ， 从 2008 年 开始 ，DUC 的 文摘 评测 任务 并 
入 TAC 评 测 。 其 他 相关 的 评测 会 议 还 有 : 多 语言 文摘 评估 (Multilingual 
Summarization Evaluation， 人 简称 MSE) ， 文 本 文摘 挑战 (Text 
Summarization Challenge， 简 称 TSC) ，TREC 等 会 议 。 这 些 会 议 涉 及 各 
种 自动 文摘 任务 ， 给 出 了 较为 权威 的 文摘 评测 方法 和 结果 。 
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第 十 四 草 ”文本 数据 挖掘 














目 然 语言 的 文本 中 经 藏 厦大 量 丰 富 的 信息 ， 但 是 ， 自 然 语言 却 对 这 
些 信息 进行 了 编码 ， 把 这 些 信息 隐藏 在 文本 当中 ， 使 它们 成 了 一 种 难以 
解释 的 形式 。 可 能 正 是 因为 这 样 的 原因 ， 在 过 去 的 目 然 语言 处 理 中 ， 很 
少 有 人 去 研究 如 何 从 文本 数据 中 挖掘 那些 隐藏 着 的 信息 ， 大 多 数 人 要 么 
古 使 用 信息 抽取 的 方法 从 数据 中 抽取 信息 ， 要 么 束 是 使 用 信息 检索 的 方 
法 直接 从 文本 中 检索 信息 。 


























“文本 数据 挖掘 ”(Text Data Mining， 简 称 TDM) 目的 在 于 从 大 规 
模 真 实 文 本 的 数据 中 发 现 或 推出 那些 隐藏 在 文本 中 的 信息 ， 或 者 找 出 文 
本 数据 集合 的 模型 ， 或 者 预测 文本 数据 中 所 隐 含 的 趋势 ， 或 者 从 文本 数 
据 的 噪声 中 分 离 出 有 用 的 信和 号。 








本 章 首 先 讨 论文 本 数据 挖掘 的 特点 。 然 后 次 明 怎 样 从 文本 中 挖掘 语 
言 学 知识 ， 再 说 明 如 何 从 文本 中 挖掘 非 语言 学 知识 ， 并 举 出 实例 具体 地 
说 明 怎 样 使 用 生物 医学 文献 中 的 文本 数据 来 推测 偏 尖 痛 的 病因 ， 怎 样 使 
用 专利 文献 中 的 文本 数据 来 揭示 美国 工业 技术 与 政府 的 公共 科学 基金 资 
助 之 间 的 关系 ， 基 后 介绍 信息 挖掘 系统 LINDI， 这 个 系统 能 够 根据 大 规 
模 的 文本 集合 来 及 现 文本 中 强 含 的 新 信息 。 

















第 一 节 ”文本 数据 挖 据 的 特 后 


“文本 数据 挖掘 ”(Text Data Mining) FHE” (Mining) 这 个 单 
词 是 一 个 比喻 。 所 谓 “ 挖 掘 ”， 意 味 着 从 没有 价值 的 岩石 中 提取 出 有 价值 
的 矿物 。 例 如 ， 从 金沙 中 提取 黄金 。 因 此 ， 文 本 数据 挖掘 就 意味 着 我 们 
需要 在 一 大 堆 数 据 的 清单 中 寻找 新 的 信息 ， 自 动 地 或 半自动 地 发 掘 在 大 
量 的 数据 中 隐藏 着 的 趋势 和 模式 ， 这 就 像 从 没有 价值 的 岩石 中 提取 有 价 
值 的 矿物 ， 从 金沙 中 提取 黄金 一 样 。 在 很 多 情况 下 ， 文 本 数据 挖掘 的 目 
的 是 制定 对 于 茶 个 特定 问题 的 决策 。 












































区 分 文本 数据 挖掘 和 信息 抽取 古 非 常 重要 的 。 信 息 抽取 的 目的 是 为 
了 帮助 用 户 从 文本 中 找到 能 够 满足 他 们 信息 需求 的 文档 。 信 息 抽取 的 步 
又 类 似 于 在 一 大 堆 针 里 找 我 们 需要 的 针 ， 在 找 我 们 需要 的 针 的 时 候 ， 我 
们 想 要 的 针 和 很 多 其 他 我 们 不 想 要 的 针 是 混在 一 起 ， 信 息 抽取 的 任务 就 
征 从 一 大 扒 混 杂 的 信息 里 把 我 们 需要 的 信息 抽取 出 来 。 文 本 数据 挖掘 的 
目标 不 是 简单 地 抽取 信息 ， 而 是 从 大 量 的 数据 中 发 现 或 者 获取 新 的 信 
恩 ， 从 一 大 堆 数据 中 寻找 模式 ， 预 测 发 展 的 趋势 ， 或 者 从 噪音 中 分 辨 出 
有 用 信和 号。 信息 抽取 系统 虽然 能 够 抽取 包含 了 用 户 所 需 信 息 的 文件 ， 但 
这 一 事实 并 不 意味 着用 户 已 经 有 了 新 的 发 现 ， 这 古 因为 ， 信 息 抽 取 系 统 
抽取 到 的 信息 对 于 文本 的 作者 来 说 是 已 知 的 ;而 文本 数据 挖掘 所 挖掘 出 
来 的 信息 ， 往 往 是 用 户 事 先 没 有 料 到 的 。 









































当然 ， 在 数据 挖 据 中 ， 如 果 处 理 的 是 非 文 本 数据 ， 那 么 ， 不 一 定 能 
够 找 出 贡 金 ， 只 要 能 从 上 数据 中 找 出 模式 ， 也 束 算 很 有 成 绩 了 。 我 们 把 
这 种 数据 挖掘 叫做 “标准 的 数据 挖掘 ?。 人 至 于 传统 的 计算 语言 学 ， 其 目的 
主要 是 在 文本 数据 中 找 出 隐藏 在 其 中 的 模式 ， 也 不 一 定 能 够 找 出 黄金 。 








这 种 情况 ， 我 们 在 表 14.1 中 进行 了 比较 。 








表 14.1 中 左边 的 “标准 的 数据 挖掘 * 和 “计算 语言 学 ”的 目标 在 于 找 出 
模式 ， 如 果 处 理 的 是 非 文 本 数据 ， 那 么 ， 这 就 是 “标准 的 数据 挖掘 * 的 任 
务 ， 如 果 处 理 的 是 文本 数据 ， 那 么 ， 这 就 是 传统 的 “计算 语言 学 ”的 任 
务 。 表 14.1 中 右边 文本 数据 挖掘 的 目标 在 于 在 沙子 找 出 黄金 ， 这 才 是 真 
正 意 义 上 的 “文本 数据 挖掘 ?"， 我 们 把 它 叫 做 “真正 的 文本 数据 挖掘 *"。 在 
这 种 “真正 的 文本 数据 挖掘 ?中 ， 需 要 通过 逻辑 推 朵 ， 发 现 新 信息 ， 从 而 
找 出 黄金 。 而 在 “信息 抽取 ”中 ， 只 需要 通过 数据 库 碍 询 就 可 以 得到 有 关 
的 信息 ， 由 于 信息 抽取 没有 发 现 新 信息 ， 当 然 不 可 能 找到 黄金 。 





























表 14.1 数据 挖掘 与 信息 抽取 比较 
S 


subj 


r V m q n bjd 


近年 来 ， 由 于 互联 网 的 迅速 发 展 ， 人 们 开始 研究 “网 络 数据 挖掘 ?。 
网 络 数据 挖掘 有 两 个 目标 。 第 一 个 目标 是 帮助 用 户 在 网 页 上 找到 有 用 的 
言 恩 并 在 网 页 文件 集 描 述 的 范围 内 ， 挖 掘 出 有 用 的 知识 。 第 二 个 目标 是 
分 析 基 于 网 页 系统 下 的 人 机 交互 ， 进 行 系统 优化 。 在 网 络 数据 挖掘 中 ， 











我 们 实际 上 是 把 网 页 中 的 信息 看 成 是 一 个 庞大 的 知识 库 ， 我 们 的 目的 是 
从 中 挖掘 出 新 的 、 前 所 未 有 的 信息 。 


文本 分 类 (text categorization) 是 把 一 个 文件 的 具体 内 容 用 一 个 或 
多 个 预先 设 定 的 分 类 标签 表示 出 来 。 这 样 的 工作 显然 不 会 发 现 新 的 信 
轧 ， 因 为 写 文 本 的 人 应 当知 道 这 个 文本 的 内 容 ， 只 不 过 文本 分 类 产生 的 
东西 是 对 已 知 信息 的 一 个 紧凑 的 总 结 而 已 。 因 此 ， 我 们 一 般 把 文本 分 类 
归 入 信息 检索 的 领域 ， 我 们 在 “信息 检索 ?中 已 经 介绍 过 这 样 的 文本 分 类 
技术 。 然 而 ， 最 近 在 文本 分 类 的 方面 的 研究 似乎 真 的 符合 在 更 加 通用 的 
文本 数据 中 发 现 趋势 和 模式 这 样 的 概念 框架 ， 使 得 这 样 的 文本 分 类 也 算 
得 上 是 “文本 数据 挖掘 *?"。 这 种 类 型 的 研究 就 是 使 用 文本 分 类 标签 来 寻找 
隐藏 在 文本 中 的 那些 “ 意 想不到 的 模式 "， 其 主要 的 方法 是 在 文本 集 的 子 
集中 比较 类 别 标 签 的 分 布 情 况 。 例 如 ， 比 较 国 家 C1 和 国家 C2 的 商品 分 
布 情况 ， 从 数据 中 发 现 一 些 有 趣 或 者 出 平 意料 的 趋势 ， 通 过 这 样 的 比较 
也 可 能 发 现 一 些 新 的 信息 。 
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在 目 然 语言 处 理 的 框架 内 ， 现 有 词汇 结构 的 自动 扩充 研究 所 取得 的 
成 果 似乎 印证 了 我 们 将 数据 挖掘 看 作 从 宕 石 中 提取 有 价值 的 矿物 的 比 
喻 。 例 如 ， 通 过 识别 词汇 语义 模式 来 自动 地 扩展 词 网 (WordNet) 中 的 
关系 ， 从 大 规模 文本 语 料 中 自动 获取 再 分 类 的 数据 ， 从 而 进行 再 分 类 ， 
使 分 类 更 加 精密 。 这 些 文本 数据 挖掘 的 研究 ， 都 从 数据 中 挖掘 出 了 新 的 
言 思 ， 而 不 是 单纯 地 抽取 出 数据 中 既 存 的 信息 。 





























近年 来 我 在 中 国 传媒 大 学 担任 博士 生 导 师 ， 该 大 学 的 依存 树 库 研究 
团队 《包括 硕士 生 、 博 士 生 和 部 分 青年 教师 ) 在 从 文本 数据 挖掘 语言 学 
知识 方面 做 了 一 些 初 步 的 探索 。 这 里 ， 我 们 举 出 一 些 例 子 来 说 明 。 





如 果 我 们 有 关于 汉语 副词 “多 半 ” 用 法 的 如 下 例句 : 


1. ÙF RIERA E TEE E 是 外 地 人 。 (表示 “大 部 分 ”) 








2. 过 了 立秋 ， 天 气 多 半 会 变 得 凉 殉 起 来 。 (表示 “通常 ”) 





3. 他 们 多 半 会 同意 的 ， 你 不 用 着 急 。 (表示 “很 有 可 能 ” 








仔细 观察 ， 发 现 句 子 3 有 歧义 。 除 了 表示 “很 有 可 能 ”之 外 ， 还 可 以 
表示 “他 们 ?中 的 “大 部 分 ”。 也 就 是 说 , “多 半 ?” 的 语义 指 癌 可 以 向 后 指 
问 “ 同 意 ”， 还 可 以 同 前 指 癌 <“ 他们?”。 





我 的 博士 生 高 松 融 着 这 样 的 问题 ， 对 北京 大 学 语料库 提供 的 500 条 
语 料 进行 分 机 ， 得 出 了 如 下 的 统计 结果 : 








X142 ” 语 料 统 计 结 果 





条 目 数 比 例 

切 分 错误 22 4.4% 
无 歧义 329 65.8% 
有 歧义 149 29. 8% 
£s P 500 100% 


她 还 发 现 ， 如 果 文 本 没有 切 词 ， 还 会 产生 如 下 的 切 分 错误 句子 : 
4. 我 差不多 半年 都 没 去 书店 了 。 

其 实 句 子 4 中 根本 没有 “多 半 ” 这 个 单词 。 

在 有 卜 义 的 149 条 中 ， 上 收 义 格式 可 以 分 为 两 关 : 





一 类 是 :“ 名 词 、 名 词性 短语 + 多 半 + 动 词 "， 例 如 ， 
5. 考 到 外 地 大 学 生 又 多 半 不 想 回来 。 

一 类 是 :“ 人 称 代词 + 多 半 + 动 词 ?， 例 如 ， 

6. 她 们 多 半 是 妙龄 女子 。 


进一步 分 析 发 现 ， 出 现 监 义 的 条 件 是 : 句子 的 主语 必须 是 群体 性 的 
名 词 、 名 词 词组 或 者 人 称 代 词 。 


句子 3 之 所 以 有 卜 义 ， 就 是 因为 主语 “他 们 ”是 表示 群体 的 人 称 代 
词 。 这 样 正解 释 了 句子 3 出 现 歧义 的 原因 。 


可 见 ， 通 过 对 于 语料库 数据 的 精细 观察 和 深入 思考 ， 我 们 确实 可 以 





从 文本 数据 中 挖掘 出 隐藏 在 其 中 的 有 用 的 语言 学 知识 。 


这 个 团队 的 研究 是 在 树 库 (tree-bank〉 的 基础 上 进行 的 。 树 库 在 数 
据 挖 掘 中 起 着 重要 的 作用 。 树 库 是 在 词性 标注 的 基础 上 ， 对 每 个 句子 加 
注 句 法 关系 的 语料库 ， 由 于 这 样 的 句法 关系 通常 用 树 形 图 Cree graph) 
来 表示 ， 因 此 ， 我 们 把 这 样 的 语料库 叫做 树 库 。 近 年 来 ， 树 库 作为 获得 
句法 结构 的 知识 源 和 评价 句法 分 析 结 果 的 工具 ， 受 到 很 多 研究 者 的 重 
视 。 越 来 越 多 的 研究 发 现 : 树 库 资源 不 仅 可 以 使 用 在 上 自然 语言 处 理 的 研 
究 中 ， 也 可 以 使 用 在 理论 语言 学 的 研究 中 ， 它 是 语言 学 研究 有 用 的 工 
具 。 树 库 中 含有 的 大 量 句法 分 布 信息 可 为 句法 研究 提供 坚实 的 基础 。 























中 国 传媒 大 学 的 树 库 是 依存 树 库 (dependency tree-bank) 。 依 存 树 
库 是 一 种 用 依存 语法 (dependency grammar) 标注 的 语料库 ， 通 过 建立 
词语 之 间 的 联系 来 描述 句法 的 结构 ， 这 种 联系 以 依存 关系 为 基础 。 





依存 关系 是 两 个 词 之 间 一 种 有 癌 的 、 非 对 称 的 关系 。 它 具有 三 个 组 
成 部 分 : 支配 词 (govermmor) 、 从 属 词 CdependenO 、 依 存 关 系 标记 
(dependency tag) 。 句 子 中 的 每 个 词 都 有 自己 的 文 配 词 ， 即 它 是 受 哪 
个 词 文 配 的 ， 它 依存 于 哪个 词 。 把 这 种 依存 关系 用 符号 标记 出 来 ， 这 些 
符号 就 是 依存 关系 标记 。 图 14-1 为 汉语 句子 “这 是 一 本 书 。” 的 依存 句法 
结构 图 。 











obj 
subj qc atr 
这 是 x: 本 5 
T m n bjd 





V 
图 14.1 “这 是 一 本 书 。” 的 依存 句法 结构 图 





图 14.1 中 带 箭头 的 弧 的 起 点 为 支配 词 ， 箭 头 指向 的 是 从 属 词 ， 弧 上 
标记 为 依存 关系 标记 。 动 词 “是 "是 句子 的 谓语 ， 它 支配 主语 < 这 和 宾 
语 “ 书 *"。“ 是 "是 支配 词 ，“ 这 ”和 “ 书 "是 从 属 词 ，“s”"、“subj”*"、“obj” 是 依 
存 关系 标记 ， 分 别 表示 “句子 "、“ 主 语 "、“ 宾 语 "。 数 词 “一 * 作 量 
词 “ 本 "的 量词 补足 语 ，“ 本 * 是 支配 词 ，“* 是 从 属 词 ，“qe” 是 依存 关系 
标记 ， 表 示 “ 量 词 补足 语 *。 数 量 短语 “一 本 " 作 名 词 “ 书 ”的 定语 ， 名 
词 “ 书 "支配 量词 "本 ”，“atr" 是 依存 关系 标记 ， 表 示人 “定语 ”。 


























他 们 在 汉语 树 库 中 使 用 的 标记 集 如 下 : 


1. 词性 标记 集 


























小 句 宾语 


bs dU 中 文 会 义 标记 类 别 
nt 时 间 名 词 词类 标记 
ns 处 所 名 词 词类 标记 

方位 名 词 词类 标记 
其 它 名 词 词类 标记 
助动词 词类 标记 
趋向 动词 词类 标记 
8 vl 系 动 词 词类 标记 
9 vi 不 及 物 动 词 词类 标记 


词类 标记 





双 宾 动词 


词类 标记 





aei ata] 
其 它 及 物 动词 


词类 标记 


词类 标记 





其 它 动词 


词类 标记 





pba 


介词 “把 ” 


词类 标记 





pbei 


介词 “ 被 ” 


词类 标记 





pjiang 





介词 “ 将 ” 
其 他 介词 





词类 标记 


词类 标记 








中 文 含义 


CAR) 


标记 类 别 





并 列 连词 


词类 标记 





从 属 连词 


词类 标记 





动 ( 时 ) 态 助词 


词类 标记 





比 况 助 词 


词类 标记 





蔡 代 助词 


语气 助词 


词类 标记 


词类 标记 





介词 框架 助词 


词类 标记 





其 他 助词 


词类 标记 





结构 助词 的” 


词类 标记 





结构 助词 “地 ” 


词类 标记 





结构 助词 “得 ” 


词类 标记 





数 词 


词类 标记 





量词 


词类 标记 





形容 词 


词类 标记 





副词 


词类 标记 





代词 


词类 标记 





叹 词 


词类 标记 





拟 声 词 


字 “ 第 ” 


词类 标记 


语素 标记 





FM 


语素 标记 





名 中 标点 


标点 标记 











句 末 标点 





标点 标记 





2. 依存 关系 标记 集 


bs du 


谓语 





主语 





宾语 
间接 宾语 
Hee 
HE AME 














介词 宾语 


方位 结构 补 语 
补 语 

"BU" 字 绪 构 补 足 语 
“地 字 绪 构 补 足 语 
“得 字 绪 构 补 足 语 












































baobj “把 字句 宾语 
ple 名 词 复数 
oc 序数 补足 语 
dc 量词 补足 语 
被 字句 
18 sentobj 小 句 宾语 
19 obja 能 愿 动词 宾语 
20 adva 状语 
21 va 连 动 句 
22 atr 定语 
23 top 主题 





24 COOT 并 列 关 系 











bs 记 i 


( BER ) 


义 





epa 同位 语 





数 词 结构 





时 态 附 加 语 





句 末 附加 语 





插入 语 





复句 关系 





连带 关系 











标点 符号 


助词 附着 关系 











他 们 使 用 excel 电 子 表格 来 进行 树 库 的 标注 。 表 中 可 以 表示 编号 、 词 
序 、 单 词 、 词 性 、 文 配 词 序 、 文 配 词 、 文 配 词性 、 依 存 关 系 等 。 例 
A, “这 是 腾 森 第 二 次 出 姓 受 审 ” 可 以 用 excel 电 子 表格 标注 如 下 : 


| = m - 
| 1 ak r 2 

| 1 2| 是 E 9. 
| 1 3 Be in T WEE 
| H 1 4 第 ‘zdi Size 

| 1 Si 二 n 6 次 

| 1 6 次 a TE 
| 1 THE wol 28 
| 1 8 受审 E 7 出 庭 
| 1 9l. - bia | | 





”图 14.2 ”用 excel 电 子 表格 来 标注 依存 树 


这 个 excel 工 作 表 相当 于 如 下 的 依存 树 : 





subj — | 


ijs 

subj 

loc 

atr 

adva 
sentobj | 


iva = 


sentobj 


subj 


oc atr adva 





这 ERRE 二 次 Whee 受审。 
r vl n zdim q v vi bjd 


图 14.3 ”依存 树 








在 这 个 树 库 的 基础 上 ， 中 国 传 媒 大 学 依存 树 库 研 究 团 队 进行 了 从 文 
本 数据 中 挖 气 语 言 学 知识 的 研究 。 








中 文 信息 处 理 系统 在 进行 现代 汉语 上 自动 句法 分 析 时 ， 需 要 量化 的 研 
客 成 采 ， 特 别 是 需要 词 的 各 种 语法 功能 的 量化 描写 。 量 化 的 信息 也 有 助 
于 语言 的 本 体 研究 与 对 外 汉语 教学 。 

















名 词 是 现代 汉语 词类 中 的 重要 成 员 ， 是 三 大 类 实 词 之 一 。 语 言 学 家 
们 从 定性 的 角度 对 名 词语 法 功能 进行 了 研究 ， 得 出 了 一 些 有 共识 的 结 


论 。 








高 松 通 过 对 于 依存 树 库 的 定量 分 析 ， 统 计 出 汉语 名 词 的 各 种 语法 功 
能 的 概率 ， 可 以 验证 和 补充 前 人 的 研究 结论 ， 有 助 于 对 名 词语 法 功能 的 
认识 更 清晰 。 在 对 外 汉语 教学 中 ， 可 以 根据 名 词 各 语法 功能 出 现 频率 的 
高 低 区 分 出 典型 、 非 典型 功能 来 分 阶段 教学 ， 她 的 研究 是 有 实用 价值 
的 。 





2007 和 年， 刘海 涛 、 汉 志 伟 提出 了 “概率 配 价 模式 理论 ”Probabilistic 

Valence Pattern Theory， 简 称 PVP) Ll 。 该 理论 发 展 了 传统 配 价 理论 

(Valence Theory) ， 吸 收 了 配 价 理论 的 优点 ， 将 配 价 理论 和 依存 语法 
很 好 地 结合 起 来 ， 形 成 了 一 种 较 完 整 的 自然 语言 分 析 和 理解 理论 。 








他 们 提出 该 理论 时 ， 在 给 出 的 汉语 词类 概率 配 价 模式 图 中 ， 他 们 和 赁 
借 着 语感 ， 用 粗细 不 同 的 线条 来 表示 词类 结合 力 的 大 小 。 线 条 粗 的 ， 词 
类 的 结合 力 大 ; 线条 细 的 ， 词 类 的 结合 力 小 。 高 松 从 真实 语 料 出 及， 构 
建 汉语 依存 树 库 ， 从 树 库 中 提取 汉语 词类 的 配 价 模 式 ， 用 精确 的 数据 来 
表示 词类 结合 力 的 大 小 ， 改 变 了 原来 凭借 语感 用 线条 的 粗细 表示 结合 
的 大 小 的 方法 ， 这 是 对 概率 配 价 模式 理论 的 进一步 发 展 。 





局 松 利用 汉语 依存 树 库 ， 统 计 出 动词 作为 支配 词 时 ， 它 文 配 从 属 词 
所 形成 的 支配 关系 和 和 这 种 支配 关系 出 现 的 概率 ; 以 及 动词 作为 从 属 词 
时 ， 文 配 词 文 配 动词 所 形成 的 动词 从 属 关系 和 这 种 从 属 关 系 出 现 的 概 
率 ; 由 此 总 结 出 汉语 动词 所 具有 的 句法 功能 的 概率 ， 高 松 将 统计 结果 与 
前 人 的 研究 结果 进行 对 比 ， 验 证 和 补充 以 前 的 研究 结论 ， 并 按照 汉语 动 
词 各 语法 功能 出 现 概率 的 高 低 ， 区 分 出 动词 的 典型 功能 和 非典 型 功能 ， 
为 对 外 汉语 教学 提供 参考 。 





1959 年 ， 法 国语 言 学 家 泰 尼 埃 的 《结构 句法 基础 》 一 书 出 版 。 此 
后 ， 他 所 提出 的 配 价 理论 与 依存 语法 引起 了 世界 各 国语 言 学 界 的 广泛 重 
视 。 在 语法 研究 、 语 言 教 学 、 目 然 语 言 处 理 中 ， 配 价 理论 都 得 到 了 广泛 
的 应 用 。 这 体现 出 配 价 理 论 是 一 种 面向 实用 的 语言 学 理论 。 














刘海 涛 、 冯 志 伟 的 概率 配 价 模式 理论 《PVP) 认为: 配 价 是 对 词汇 
的 一 种 静态 描述 ， 它 是 词 与 其 他 词 结合 的 潜在 能 力 。 在 词典 中 ， 词 的 配 
价 有 多 种 可 能 。 但 当 词 进入 到 具体 的 语 境 中 ， 它 与 其 他 词 结合 的 潜在 能 


力 得 以 实现 ， 词 典 中 多 种 可 能 的 配 价 变 为 一 种 ， 形 成 了 依存 关系 
(dependency) ， 依 存 关 系 是 一 种 实现 了 的 配 价 。 配 价 是 一 个 词 的 结合 
力 ， 力 有 大 小 ， 我 们 可 以 用 一 个 词类 支配 或 被 文 配 的 依存 关系 在 数量 上 
的 不 同 来 描述 结合 力 的 大 小 ， 可 以 通过 依存 树 库 来 获得 精确 的 定量 摘 
述 。 这 天 是 概率 配 价 模式 理论 。 它 就 是 在 描述 一 个 词 或 词类 的 配 价 模式 
时 ， 不 仅 用 定性 的 方式 来 摘 述 它 可 文 配 什么 样 的 依存 关系 ， 可 受 什 么 样 
的 依存 关系 的 文 配 ， 还 用 定量 的 方式 给 出 这 些 依存 关系 的 权重 或 概率 分 
布 。 














高 松 的 研究 是 以 概率 配 价 模式 理论 为 理论 基础 的 。 





高 松 研究 使 用 的 树 库 是 中 国 传媒 大 学 依存 树 库 研 究 团 队 开 发 的 面向 
有 声 媒体 语言 的 汉语 依存 树 库 以 及 她 自 建 的 汉语 依存 树 库 。 选 取 的 语 料 
为 2007 年 电视 台 和 广播 电台 节目 的 转 写 文本 。 电 视 节 目 如 “新 闻 联 
f&". “SERS. “BRAN”. “ARR SS, 广播 节目 如 “新 闻 和 报 
纸 摘 要 ”“ 今 日 论坛 “海峡 时 评 ”"“ 中 国之 窗 ” 等 。 选 取 的 语 料 既 包含 
新 闻 播 报 类 又 包含 访谈 会 话 类 ， 涉 及 的 范围 和 内 容 比较 广泛 。 语 体 上 ， 
既 有 书面 语 体 又 有 口语 体 。 语 料 中 共有 3 600 个 句子 ，98 236 个 词 次 ， 使 
用 软件 工具 进行 了 自动 分 词 和 词性 标注 ， 并 采用 依存 语法 对 其 进行 了 名 
法 标注 。 为 确保 标注 的 一 致 性 ， 对 汉语 的 某 些 特殊 结构 ， 给 出 了 统一 的 
标注 方法 。 所 有 的 标注 结果 都 经 过 了 人 工 和 工具 的 核对 校正 。 





在 依存 树 库 中 ， 高 松 用 excel 电 子 表格 统计 出 “从 属 词 词性 "“ 文 配 
词 词性 ”与 “依存 类 型 "之 间 的 关系 ， 得 到 汉语 动词 通过 哪些 依存 关系 文 
配 从 属 词 ， 文 配 词 通 过 哪些 依存 关系 文 配 动词 。 动 词 文 配 从 属 词 形成 的 
依存 关系 ， 能 得 出 动词 可 以 带 什么 成 分 的 信息 ， 受 什么 词 修饰 ， 文 配 词 
支配 动词 形成 的 依存 关系 ， 能 得 出 动词 在 句 中 作 什么 成 分 的 信息 。 分 析 
这 两 种 依存 关系 能 得 出 汉语 动词 共有 的 句法 功能 分 布 的 信息 ， 而 这 样 的 














信息 ， 原 来 部 是 隐藏 在 文本 中 的 ， 所 以 ， 这 是 一 种 “文本 数据 挖掘 ”的 研 
Fic 








动词 是 现代 汉语 词类 中 的 重要 成 员 ， 在 句法 结构 中 起 着 极 重要 的 作 
用 ， 动 词 的 研究 一 直 是 语言 学 研究 的 热点 。 在 语言 学 本 体 研究 中 ， 对 动 
词句 法 功能 的 研究 相当 深入 ， 但 这 些 研究 大 多 是 对 动词 的 定性 分 析 。 高 
松 将 定量 分 析 和 定性 分 析 相 结合 ， 能 验证 已 有 研究 结论 的 正确 性 并 弥补 
它们 的 不 足 。 





在 依存 树 库 中 ， 动 词 为 文 配 词 时 ， 它 与 从 属 词 所 形成 的 支配 关系 ， 
包括 支配 关系 标记 、 这 种 支配 关系 出 现 的 次 数 以 及 每 种 支配 关系 占 动词 
作 支 配 词 所 形成 的 所 有 支配 关系 的 比例 。 见 表 14.3。 


X143 ”动词 为 支配 词 支 配 从 属 词 所 形成 的 依存 关系 、 依 存 关系 出 现 的 频次 、 比 例 和 例句 


状语 adva 我 们 如 何 才能 打破 世俗 观念 , 活 出 


人 生 最 佳 状态 。 





用 庄子 的 比喻 来 讲 ,好 像 是 一 下 
AS. 


宾语 obj 17.90% 





我 们 首先 要 有 一 种 豁达 的 态度 , 心 
态 决定 人 的 状态 。 
不 务 就 是 不 去 追求 ,也 就 是 不 去 追 
求 不 以 为 是 的 东西 。 


主语 subj 16.11% 





复句 关系 er 5.558. | X1 79e 





支配 关系 句 
标点 符号 punct 我 听 朋 友 讲 , 董 月 玲 出 书 了 。 


这 些 熟悉 的 字眼 第 一 次 集体 地 出 
现在 眼前 。 








补 语 comp 





于 是 我 找到 了 他 ,请 他 讲述 那些 令 


连带 关系 csr 他 感动 的 故事 。 





pia 我 们 总 觉得 下 个 世纪 离 我 们 很 远 ， 
小 句 宾语 sentobj 
突然 一 下 子 来 临 。 

能 愿 动词 宾语 obja 那个 时 间 也 能 出 书 。 
时 态 附 加 语 ta 那 时 我 大 概 写 了 五 十 万 字 。 


甘肃 张 县 是 当年 红军 长 征 走 过 的 
地 方 。 


定语 atr 仅仅 把 新 闻 的 传递 当成 他 的 天 职 。 
名 来 附加 语 esa 我 认为 没 价值 我 还 追求 吗 ? 


AGB soc 1.02% WIE ER , Tex HAT o 


经 常会 有 山里 的 一 种 猴子 跑 到 农 
田 里 去 祸害 庄稼 。 








3E subobj 





这 个 口碑 传 着 传 着 就 传 到 国君 那 
里 了 。 


并 列 关 系 coor 





资源 紧张 的 国情 ,我们 更 无 理由 奢 


Ty LHE 





比如 说 ,我 们 有 天 然 气 化 工 ,但 我 


ina 
插入 语 们 没有 石油 化 工 。 





人 去 楼 空 依旧 灯火 通明 ,电脑 不 


助词 附着 语 auxr egies 
E 关 , 空 调 照 转 等 。 








(ER) 














f J 








“把 ”字句 宾语 如 果 是 洪 泥 和 小 石头 ,我 们 把 它 和 
baobj 了 以 后 就 快 。 





陕西 省 目前 要 求 被 拆除 的 钢铁 设 
备 必须 解体 。 


被 字句 beis 0. 29% 














100% 


从 表 14.3 中 ， 可 以 得 到 的 结论 主要 有 : 








1) 动词 文 配 补足 语 可 以 形成 的 依存 关系 有 : 宾语 obj、 主 语 subj、 
补 语 comp、 小 句 宾 语 sentobj、 能 愿 动词 宾语 obja 等 。 其 中 ， 动 词 能 带 宾 
语 的 比例 在 动词 带 所 有 补足 语 的 比例 中 是 最 高 的 ， 占 17.90%。 其 次 是 带 
主语 。 动 词 带 主语 的 比例 仅 次 于 带 宾语 的 比例 ，16.11%。 然 后 是 带 补 
语 。 动 词 融 补 语 的 比例 是 3.71%。 接 下 来 是 小 句 宾语 sentobj、 能 愿 动词 
宾语 obja、 兼 语 补 语 soc、 兼 语 subobj、“ 把 ” 字 宾 语 baobj、“ 被 ”字句 


beis 。 





2) 动词 文 配 说 明 语 可 以 形成 的 依存 关系 有 : 状语 adva、 复 句 谓 语 
cT、 连 带 关 系 csr、 时 态 附 加 语 ta 等 。 其 中 ， 动 词 能 带 状语 的 比例 在 动词 
带 所 有 说 明 语 的 比例 中 是 最 高 的 ， 占 23.48%。 其 次 是 融 复 句 谓语 cr， 
11.579%。 然 后 是 带 连带 关系 csr， 占 3.30%。 接 下 来 是 带 时 态 附加 语 ta、 
ERES Ava, Weimar. WARM esa ÉRIK coor T 
主题 top、 带 插入 语 ina、 带 助词 附加 语 auxr。 


3) 语言 学 家 们 提出 动词 能 带 宾 语 、 能 带 补 语 、 能 带 状语 、 后 面 还 
能 加 时 态 助词 “着”"、“ 了 ”、“ 过 *。 高 松 统 计 出 来 的 动词 带 宾语 (如 “有 理 
APO APNE (如 “ 想 明白 ") 、 带 状语 (如 “不 追求 ") 、 带 时 态 且 


词 “ 着 ”、 ETE “过 >” CUI DEP. “决定 了”、 “去 过 ”) 等 结果 ， 验证 了 


这 些 结论 的 正确 性 。 


4) 从 统计 数据 来 看 ， 动 词 文 配 说 明 语 的 比例 是 53.829%6， 文 配 补 足 
语 的 比例 是 46.18%。 研 究 者 们 基于 传统 的 配 价 理论 ， 通 音 考 碟 动 词 带 补 
足 语 的 情况 很 多 ， 对 带 说 明 语 的 关注 程度 不 高 。 高 松 的 统计 数据 显示 : 
动词 文 配 说 明 语 的 比例 略 高 于 补足 语 。 这 提示 我 们 ， 今 后 应 该 加 大 对 动 
词 文 配 说 明 语 的 考察 力度 。 





动词 作 从 属 词 时 ， 文 配 词 文 配 动词 所 形成 的 动词 从 属 关 系 ， 包 括 从 
属 关 系 标 记 、 从 属 关 系 出 现 的 次 数 以 及 每 种 从 属 关 系 占 动词 作 从 属 词 所 
形成 的 所 有 从 属 关 系 的 比例 。 见 表 14.4。 








表 14.4 动词 为 从 属 词 ， 支 配 词 支 配 动词 所 形成 的 依存 关系 、 依 存 关系 出 现 的 频次 、 比 例 和 例 
名 





世界 最 佳 运动 员 评 选 结果 昨天 揭 
晓 , 巴 西 球星 卡 卡 当选 世界 足球 
先生 。 


他 的 同胞 玛 塔 则 卫冕 了 世界 足球 
小 姐 称号 。 


“的 “ 字 结 构 补 足 工资 收入 成 为 今年 农民 增收 的 新 


语 dec 亮点 。 
建议 制定 科索沃 问题 线路 图 。 


西方 国家 基本 上 不 发 展 炼焦 而 依 


愿 动词 宾语 obja - 
徘 进口 。 


深化 政治 体制 改革 ,必须 坚持 正确 
的 政治 方向 ,以 保证 人 民 当 家 作 主 
为 根本 。 


美国 一 年 购买 瓶装 水 花费 150 亿 
类 元 8 
























































从 属 关 系 频次 | 比 例 f ^ ^ 
、 加 快 “ 白 杨 一 M” 固 定式 和 机 动 式 
定语 atr 1084 | 5.07% 
oid 发 射 装置 的 装备 进程 。 
补 语 comp 1031 | 4.82% | 救出 来 的 矿工 他 的 生命 有 危险 吗 ? 
提供 保障 吸引 外 出 务工 人 员 回 乡 
状语 adva 908 4.25% 一 ”一 
7^ | 创业 就 业 。 
主语 subj 619 2.90% | 2007 中 举 十 大 才智 人 物 评选 日 前 
fnt. 
£ 
JH soc PEN ha: 天 津 有 一 种 中 成 药 叫 “复方 丹参 
WAL” o 
随 着 经 济 的 发 展 ,如 今 出 现 劳动 力 
介词 宾语 pobj 332 1.55% 
介词 宾语 pobj BA. 
A "ial: 
并 列 关 系 coor 291 1.36% 今天 我 们 来 看 一 看 这 里 面 还 有 多 
少 钱 。 
本 
方位 结构 补 语 fe 259 | 1.21% | PU EREE RENAE 
着 的 。 
助词 附着 语 aur "mm 先 来 看 一 下 我 们 议事 厅 的 记者 
调查 。 
BH 占 MZ 
MAE ina 100 0.47% 据说 最 好 的 时 间 是 六 点 到 六 点 半 
之 间 。 
五 年 来 ,围绕 经 济 建设 这 个 中 心 ， 
司 位 语 epa 98 0.46% TENE LI 
En 建言 献策 。 
“得 » cz ok A D 
得 OFRENE] 44 | 0.21% | 他 们 活 得 比 我 们 充实 。 
tE dfe I 
地 ” 字 结 构 补 足 Bi | i e 他 会 毫 不 犹豫 地 去 ,这 就 是 一 种 社 


语 dic 








会 责 责任 感 。 





从 属 关 系 比 例 fil A 





展望 未 来 , 他 们 对 生活 充满 了 
信心 。 


话题 top 0.09% 

















100% 


GDcr 为 一 个 复句 中 分 句 间 的 关系 。 联 合 复句 中 ， 第 一 个 分 句 中 的 谓 
语 定 为 cr 的 支配 者 ， 后 续 分 句 的 谓语 为 从 属 成 分 ， 偏 正 复 句 中 ， 正 句 中 
的 谓语 作为 cr 的 文 配 者 ， 偶 句 谓语 作为 从 属 成 分 。 复 句 中 动词 在 分 句 中 
作 谓 语 用 cr 表示 ; 单 句 中 动词 作 谓 语 用 s 表 示 。s 和 cr 出 现 次 数 的 总 和 是 
动词 作 谓 语 出 现 的 全 部 次 数 。 





从 表 14.4 中 ， 可 以 得 到 的 结论 主要 有 : 


1) 汉语 中 6 种 主要 的 句法 功能 ， 即 主语 subj、 谓 语 s、 宾 语 obj、 定 
语 atr、 状 语 adva、 补 语 comp， 动 词 都 可 以 充当 。 动 词 充 当 这 6 种 主要 的 
语法 功能 的 比例 不 同 。 动 词 作 谓语 的 比例 最 高 ， 占 42.02%， 其 次 是 作 宾 
语 ， 占 7.41%。 人 然后 依次 是 作 定语 、 补 语 、 状 语 、 主 语 。 


20 除了 主要 的 句法 功能 之 外 ， 动 词 还 可 以 作 * 的 ”学 结构 补足 语 
dec、 作 能 愿 动词 宾语 obja、 作 小 句 宾 语 sentobj、 带 连 动 成 分 va、 作 兼 话 
补 语 soc、 作 介词 宾语 pobj、 形 成 并 列 关 系 coor、 作 方位 结构 补 语 fc、 作 
助词 附加 语 auxr、 作 插入 语 ina、 作 同位 语 epa、 作 “得 ” 字 结 构 补足 语 dfc 
、 作 “地 *” 字 结构 补足 语 dic、 作 主题 top。 


3) 从 动词 具有 6 种 主要 的 句法 功能 来 看 ， 动 词 似 乎 成 了 一 个 全 功能 
的 词类 。 汉 语 是 不 依赖 于 严格 意义 上 形态 变化 的 语言 ， 语 法 关系 主要 借 
助 语序 、 虚 词 等 语法 手段 来 表示 。 词 的 次 序 和 位 置 改 变 ， 语 法 关系 也 随 
之 发 生 改 变 ， 语 义 也 跟着 产生 变化 。 如 :“ 他 工作 很 努力 。 一 一 工作 是 








他 的 全 部 。” 前 一 句 中 的 “工作 ”是 动词 ， 位 置 在 主语 后 ， 作 谓语 ， 后 一 
句 中 的 “工作 ”是 名 词 ， 位 置 在 动词 前 ， 作 主语 。 同 样 是 “工作 ”这 个 词 ， 

在 句 中 位 置 变化 使 得 语法 关系 也 发 生 了 变化 。 英 语 中 , “工作” 作 主 语 是 
working， 作 谓语 是 works、worked。 英 语 的 词 如 果 充 当 的 句法 成 分 不 

同 ， 词 的 形态 是 会 发 生变 化 的 。 这 里 实际 上 反映 出 汉语 词 的 兼 类 问题 没 
处 理 好 。 同 一 个 词 兼 有 具 几 种 词类 ， 就 会 导致 它 上 共有 多 种 句法 功能 。 











高 松 选择 了 五 本 比较 权威 的 语言 学 著作 : DEIR. BEY IRGES4 CHL 
代 汉 语 〈 第 三 版 )》、 北 京 大 学 中 文系 现代 汉语 教研 室 编 《现代 汉语 
CHE HERO 》、 明 裕 树 主编 《现代 汉语 》、 张 斌 主编 《新 编 现代 汉语 
(第 二 版 )》、 邵 敬 敏 主编 《现代 汉语 通论 》， 从 定性 分 析 的 角度 ， 语 
言 学 家 们 用 内 省 的 方法 对 动词 句法 功能 的 归纳 如 下 。 见 表 14.5。 

















表 14.5 ”五 本 语言 学 彰 作 对 动词 句法 功能 的 总 结 





句法 功能 | 能 受 副词 
修饰 或 能 
带 状语 


+ (D 








d 























邵 敬 敏 本 十 十 十 十 


表 中 “+” 表 示 该 著作 中 提 到 了 的 动词 句法 功能 项 ;“-” 表 示 没 有 提 到 
的 动词 句法 功能 项 。 





从 表 14.5 中 可 以 看 到 : 五 本 有 代表 性 的 语言 学 著作 中 ， 对 动词 的 语 








法 特点 共 提 到 七 点 。 多 数 都 提 到 了 动词 能 受 副词 修饰 、 大 部 分 能 带 宾 

语 、 作 定语 、 可 加 时 态 助 词 、 部 分 可 以 重合 、 能 带 补 语 这 几 点 。 少 数 所 
到 了 动词 作 宾 语 这 扣 。 局 松 的 统计 数据 验证 了 这 些 研究 结论 的 正确 性 。 
对 于 动词 能 作 定 语 、 状 语 、 补 语 、 主 语 这 些 句 法 功能 ， 这 五 本 书 都 没有 
提 及 。 高 松 的 统计 结果 可 以 补充 前 人 的 研 完 结论 。 并 且 ， 为 动词 各 个 名 
法 功 提供 了 相应 的 数据 。 





本 文 的 统计 可 以 为 汉语 动词 的 结合 力 提供 精确 的 数据 ， 用 数据 来 表 
示 动 词 结合 力 的 大 小 。 汉 语 动词 的 概率 配 价 模式 图 如 下 : 


由 图 14.4 可 以 看 出 ， 汉 语 动词 的 结合 能 力 是 非常 强 的 。 它 的 文 配 能 
力 和 从 属 能 力 都 非常 强 。 它 可 以 文 配 或 从 属 其 他 词类 而 产生 多 种 依存 关 
系 。 当 它 是 文 配 词 时 ， 结 合力 是 离心 力 ， 图 中 用 回 外 的 箭头 表示 动词 可 
以 文 配 的 关系 ， 如 :“ 重 局 电脑 ”中 动词 “ 重 局 ?古文 配 词 ， 文 配 名 词 “ 电 
Wi", “电脑 ” 作 “ 重 局 ”的 宾语 ， 当 它 是 从 属 词 时 ， 结 合力 是 同心 力 ， 图 
中 用 辐 内 的 稍 头 表 示 动 词 可 以 满足 的 关系 ， 如 :“ 报 警 电 话 ? 中 动词 “ 报 
和 警 ”" 是 从 属 词 ， 它 从 属于 名 词 “ 电 话 ”， 作 名 词 “ 电 话 ” 的 定语 。 图 中 依存 
关系 后 的 数字 是 动词 可 支配 、 可 满足 关系 的 比例 (960 。 
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图 14.4 ”汉语 动词 的 概率 配 价 模式 图 





从 概率 配 价 模式 图 中 可 以 看 到 : 动词 典型 的 句法 功能 是 作 谓 语 ， 较 
典型 句法 功能 次 之 的 是 作 宾 语 和 定语 ， 非 典型 句法 功能 是 作 补 语 、 状 语 








和 主语 。 这 说 明 ， 汉 语 的 动词 具有 多 功能 性 ， 除 了 充当 自己 擅长 的 句法 
成 分 之 外 ， 还 可 以 充当 其 他 几 种 句法 成 分 。 可 以 说 ， 它 是 “一 专 多 

能 "的 。 在 对 外 汉语 语法 教学 中 ， 可 以 对 动词 典型 句法 功能 和 非典 型 名 
法 功能 分 阶段 教学 。 高 松 根据 统计 数据 对 动词 句法 功能 的 区 分 ， 可 以 为 
对 外 汉语 教学 提供 一 个 参考 。 





这 些 研究 成 果 显 示 了 语料库 的 威力 ， 证 明了 我 们 确实 可 以 从 语料库 
中 挖掘 到 有 用 的 语言 学 知识 。 


语言 学 知识 完 竟 在 哪里 ? 我 们 的 回答 是 : 语言 学 知识 固然 在 词典 
里 ， 在 语法 书 里 ， 在 汗 牛 充 栋 的 语言 学 著作 里 ， 但 是 ， 这 些 语言 学 知识 
毕竟 是 通过 语言 学 家 对 于 局 部 的 语言 现象 归纳 出 来 的 ， 难 免 会 有 片面 或 
错误 的 地 方 ; 更 多 的 语言 学 知识 还 隐藏 在 语料库 里 ， 语 料 库 是 语言 学 知 
识 最 可 靠 的 来 源 。 从 语料库 中 获取 语言 学 知识 ， 并 根据 这 些 知 识 对 于 前 
埋 语 言 学 家 根据 内 省 得 出 的 结论 进行 检验 ， 从 而 证 实 或 证 伪 这 些 知识 ， 
这 和 古 生 活 在 21 世 纪 的 语言 学 家 责 无 劳 贷 的 任务 。 























除了 使 用 语料库 挖掘 语言 学 知识 之 外 ， 还 可 以 使 用 语料库 挖掘 非 语 


言 学 的 知识 。 


第 三 三 ”从 文本 中 挖 据 非 语言 学 知 
iH 








前 面 我 们 说 过 ， 文 本 数据 挖掘 目的 在 于 从 大 规模 真实 文本 数据 中 发 
现 或 推出 新 的 信息 ， 找 出 文本 数据 集合 的 模型 ， 发 现 文本 数据 中 押 隐 含 
的 趋势 ， 从 文本 数据 的 噪声 中 分 离 出 有 用 的 信和 号。 在 本 节 中 ， 我 们 来 说 
明 如 何 从 文本 中 挖掘 出 非 语言 学 知识 。 














1997 年 ， 斯 万 森 (Don Swanson) 证 明了 医学 文献 的 语料库 中 暗含 
的 因果 链 可 以 帮助 我 们 找到 有 关 军 见 疾病 起 因 的 假说 ， 而 其 中 一 些 假说 
有 可 能 得 到 实验 数据 的 进一步 支持 。 


例如 ， 当 调查 偏 头 痛 (migraine headaches) HERK, MIRAE 
物 医学 文献 的 文章 标题 中 提取 了 各 种 各 样 的 线索 ， 其 中 的 一 些 线索 如 
下 : 


因果 链 1: 


Stress is associated with migraines.〈 偏 头痛 与 精神 紧张 有 关 。 ) 
Stress can lead to loss of magnesium. (精神 紧张 可 能 会 导致 位 流失 。 
) 


因果 链 2: 


Calcium channel blockers prevent some migraines. (453M 18 BH Yr 7#] By 
DART IE FRE KI.) 
Magnesium is a natural calcium channel blocker.〔 镁 是 一 种 天 然 的 钙 


通道 阻 灌 剂 。 ) 

因果 链 3; 

Spreading cortical depression is implicated in some migraines. (传播 皮 
层 抑郁 与 某 些 偏 头痛 有 联系 。 ) 


High levels of magnesium inhibit spreading cortical depression. (高 
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因果 链 4: 


Migraine patients have high platelet aggregability.〈( 偏 头痛 患者 有 很 高 
的 血小板 聚集 。 ) 

e Magnesium can suppress platelet aggregability.〔 镁 能 抑制 血小板 聚 
AR. 








RIAR Ze AY DBE» SUD RI Bee AEE Sk TRI; 但 
是 ， 在 斯 万 森 发 现 这 些 链 接 之 前 ， 这 一 个 假定 在 文献 中 并 不 直接 存在 ， 
它 古 隐 伟 在 文献 中 的 。 这 个 假说 还 需要 进行 非 文 本 手段 的 检验 ， 不 过 ， 
重要 的 是 ， 这 项 研究 说 明 ， 一 个 新 的 、 可 能 是 正确 的 医学 假说 可 以 来 源 
于 文本 片段 ， 一 旦 这 个 假设 得 到 研究 者 的 医疗 专业 知识 的 印证 ， 束 可 以 
发 现 新 的 医学 知识 。 斯 万 森 的 研究 生动 地 说 明了 文本 数据 挖掘 在 新 知识 
发 现 中 的 重要 作用 。 




















我 们 再 介绍 通过 文本 数据 挖掘 来 确定 政府 资助 研究 对 工业 发 展 影响 
的 一 个 成 果 。 


经 过 几 年 的 初步 研究 和 构建 特殊 用 途 的 工具 ，1997 年 ， 纳 宁 
(Narin) 等 人 发 现 ， 在 美国 ， 技 术 产 业 比 以 往 任何 时 候 都 要 更 加 依赖 


政府 资助 的 研究 成 果 。 











他 们 通过 文本 数据 挖掘 探索 了 下 列 文献 之 间 的 关系 : 


他 们 仔细 考察 了 最 近 两 个 阶段 (1987 到 1988 年 ， 以 及 1993 年 到 1994 
年 ) 美国 专利 的 科学 引用 文献 ， 研 究 了 所 有 已 经 发 布 的 397 600 项 专 
利 。 结 果 发 现 可 识别 242 000 条 科学 引用 文献 ， 而 这 些 文献 中 的 80% 都 集 
中 出 现在 前 11 年 的 出 版 物 上 。 计 算 机 数据 库 查 寻 了 这 些 引 用 文献 中 的 
109 000 条， 从 而 知道 了 这 些 期 刊 和 作者 的 地 址 。 在 排除 了 对 同一 篇 论 
文 的 多 次 引用 和 未 知 美国 作者 的 文章 之 后 ， 得 到 了 由 45 000 篇 论文 组 成 
的 一 个 核心 集 。 然 后 ， 他 们 派出 了 大 量 的 助手 去 图 书馆 查找 论文 并 审查 
这 些 论文 的 最 后 一 句 话 ， 因 为 最 后 一 句 话 常常 会 说 明 是 谁 资助 了 这 项 研 
究 ， 这 样 就 可 以 找 出 有 关 研 究 的 资助 者 。 这 些 调查 工作 说 明 ， 这 些 专利 
科学 引用 文献 的 研究 成 果 对 于 政府 的 公共 资助 科学 基金 的 广泛 依赖 ， 然 
后 ， 他 们 进一步 缩小 考察 的 重点 ， 不 考虑 颁 给 学 校 和 政府 的 专利 ， 而 主 
要 集中 考虑 工业 专利 。 对 于 在 1993 年 和 1994 年 中 发 布 的 2” 841 项 工业 专 
利 ， 他 们 和 仔细 考察 了 文献 引用 的 高 峰 年 (1988 年 ) ， 并 且 发 现 ， 这 些 工 
业 专 利 引 用 了 5 217 条 科学 论文 ，73.3% 的 专利 论文 的 发 表 者 是 美国 国内 
外 的 公共 机 构 ， 也 就 是 大 学 、 政 府 实验 室 和 其 他 的 公共 机 构 。 这 项 研究 
说 明 : 美国 的 工业 技术 的 专利 成 果 主 要 由 政府 的 公共 资助 科学 基金 资助 
的 。 这 项 研究 结果 使 我 们 对 于 美国 工业 技术 与 政府 的 公共 资助 科学 基金 
资助 的 关系 有 了 新 的 认识 ， 获 得 了 新 的 信息 。 














在 文本 数据 挖 据 中 ， 对 大 型 文本 集 进行 复杂 的 分 析 需 要 一 套 混 合 的 
操作 。 这 些 操作 包括 : 


1. 在 一 个 特定 的 数据 范围 内 ， 从 特定 的 集合 (模式 ) 中 提取 文本 。 


2. 识别 引用 文献 集 。 

3. 用 数据 将 这 些 引 用 的 文献 进行 分 类 ， 创 造 出 一 个 新 的 文献 子 集 。 
4. 计算 归 类 后 剩余 文献 的 百分比 。 

5. 把 这 些 结果 加 入 到 那些 已 经 识别 出 出 版 物 的 文献 集 里 。 

6. 删除 重复 的 文献 。 

7. 删 除 具 有 同一 属性 类 别 的 文献 。 





8. 找 出 文献 在 全 文中 的 位 置 。 

9. 从 全 文中 提取 特定 的 属性 〈 例 如， 资金 赞助 情况 ) 。 

10. 对 这 个 属性 进行 分 类 例如， 按照 机 构 类 型 分 类 ) 。 

11. 通过 一 个 属性 例如， 机构 类 型 缩小 需要 考虑 的 文献 集合 。 
12. 对 于 其 中 的 一 个 属性 ， 计 算 统计 数据 〈 例 如， 峰值 类 型 ) 。 


13， 针 对 哪 一 属性 会 被 分 配 为 号 一 个 属性 类 型 的 情况 ， 计 算 文章 的 
百分比 《〈 例 如， 其 引用 属性 是 人 否 具 有 特定 的 机 构 属 性 ) 。 














因为 有 的 数据 不 能 通过 网 络 获得 ， 许 多 工作 必须 由 手工 完成 ， 而 且 
要 用 专用 工具 来 进行 操作 。 


在 分 子 生物 学 中 ， 目 动 发 现 新 的 序列 基因 的 功能 是 一 个 非常 重要 问 
题 。 人 类 基因 组 的 研究 人 员 进行 了 实验 ， 他 们 在 实验 中 同时 分 析 了 数 以 
万 计 的 新 信息 和 已 知 基因 的 协同 表达 关系 。 给 出 大 量 基 因 信 息 的 目的 是 











为 了 确定 哪些 新 基因 在 医学 上 是 有 意义 的 ， 它 们 与 已 知 的 和 疾病 相关 的 
基因 是 合 具 有 协同 表达 的 关系 。 

















我 们 可 以 使 用 文本 数据 挖掘 的 方法 来 探索 这 个 问题 ， 通 过 分 析 分 子 
生物 学 和 医学 的 文献 ， 设 法 提出 与 基因 有 关 的 、 可 信 的 假说 。 为 此 ， 学 
者 们 设计 了 LINDI CLinking Information for Novel Discovery and Insight) 
系统 ， 该 系统 可 以 把 新 的 科学 发 现 信 息 与 科学 预见 的 信息 结合 起 来 。 











LINDI 系 统 的 界面 为 用 户 提 供 了 便利 ， 它 可 以 让 用 户 通 过 一 个 拖 放 
界面 来 建立 和 重复 使 用 问题 操作 的 序列 ， 人 允许 用 户 针 对 不 同 的 问题 重复 
同一 动作 序列 。 在 基因 的 分 析 中 ， 人 允许 用 户 指 定 一 个 操作 序列 以 适用 于 
协同 表达 的 基因 ， 然 后 在 可 以 套用 这 一 模版 的 其 他 协同 表达 基因 列表 中 
重复 这 一 序列 。 在 LINDI 的 信息 中 心 框架 内 应 用 了 这 类 功能 。 包 括 下 列 
操作 : 





1. 在 规定 范围 内 的 ， 对 条 目的 循环 操作 :允许 在 先前 问题 当中 提取 
出 来 的 每 个 条 目 都 能 够 被 用 作为 一 个 新 问题 的 搜寻 条 目 。 





2. 转换 : 对 某 一 条 目 应 用 一 个 操作 ， 然 后 返回 一 个 变换 了 的 条 目 。 
例如 ， 提 取 一 个 特征 。 


3. HEAP: 对 一 组 条 目 应 用 一 个 操作 ， 然 后 返回 一 组 具有 同样 基数 
的 、 可 能 重新 排序 过 的 条 目 。 





4. 选择 : 对 一 组 条 目 应 用 一 个 操作 ， 然 后 返回 一 组 具有 相同 或 较 小 
基数 的 、 可 能 重新 排序 的 条 目 。 





5. HW: 对 一 组 或 多 组 条 目 应 用 一 个 操作 ， 以 产生 一 个 单独 的 结 
果 。 例 如 ， 计 算 百分比 和 平均 数 。 





图 14.5 说 明了 在 分 子 生物 学 和 医学 的 文本 集中 探索 基因 功能 的 一 个 
假定 的 操作 序列 ， 


探索 新 基因 X 的 功能 


i 医学 文献 





基因 X 
可 能 的 功能 








图 14.5 ”探索 基因 功能 的 LINDI 系 统 





其 中 基因 A、B 和 C 的 功能 是 已 知 的 ， 并 且 通 过 寻求 共同 点 来 假设 未 
知 基因 的 功能 。 映 射 操作 对 选取 的 关键 词 进行 了 排序 。 最 后 的 操作 是 选 
取 那 些 至 少 包 含 了 一 个 最 高 级 别 关 键 词 的 文档 ， 还 有 那些 提 到 了 所 有 3 
个 已 知 基因 的 文档 。 











使 用 文本 数据 挖掘 技术 ，LINDI 系 统 可 以 从 有 关 基 因 A、 基 因 B 和 基 





因 C 的 文献 分 析 中 ， 提 取 关 键 词 ， 并 把 这 些 关 键 词 的 交叉 点 〈 交 集 ) 映 
财 到 对 于 基因 X 的 分 析 得 到 的 关键 词 中 ， 从 而 预测 基因 X 可 能 的 功能 。 
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Br BAGS HR. Ball 
答 与 人 机 接口 


自然 语言 理解 (Natural Language Understanding， 简 称 NLU) 研究 
如 何 让 计算 机 理解 和 运用 人 类 的 自然 语言 ， 使 得 计算 机 懂得 自然 语言 的 
含义 ， 并 对 人 给 计算 机 提出 的 问题 ， 通 过 人 机 对 话 Inan-machine 
dialogue〉 的 方式 ， 用 自然 语言 进行 回答 。 自 然 语言 理解 系统 可 以 用 作 
专家 系统 、 知 识 工 程 、 信 息 检 索 、 自 动 问答 、 自 然 语言 人 机 接口 ， 有 很 
大 的 实用 价值 。 























本 章 首 先 介绍 目 然 语 言 理解 研究 的 发 展 情况 ， 然 后 分 析 汉 语 目 然 语 
言 理解 的 特点 和 困难 ， 最 后 讨论 目 然 语言 理解 在 目 动 问答 、 人 机 接口 中 
的 应 用 。 





BO BA E HAE CY ACE 


早 在 计算 机 出 现 之 前 ， 著 名 数学 家 图 灵 束 提出 ， 如 果 有 一 天 人 类 制 
造 出 了 计算 机 ， 那 么 ， 检 验 计算 机 智能 高 低 的 最 好 办 法 是 让 计算 机 来 讲 
英语 和 理解 英语 ， 他 天 才 地 预见 到 计算 机 和 自然 语言 将 会 结 下 不 解 之 
绿 ， 提 出 了 “图 灵 试 验 ” 的 设想 。 图 灵 的 这 种 高 瞻 远 瞩 的 见解 ， 成 为 自然 
语言 理解 系统 研制 的 重要 的 理论 根据 。 














1966 年 美国 公布 了 否定 机 器 翻译 的 ALPAC 报 告 之 后 ， 处 于 草创 时 
期 的 机 器 翻译 研究 转 入 低 漳 ， 于 是 ， 同 自然 语言 的 计算 机 处 理 有 关 的 研 
究 ， 逐 渐 转 向 了 自然 语言 理解 方面 。 学 者 们 采用 了 各 种 精巧 的 方法 ， 学 
试 着 建立 计算 机 系统 ， 让 计算 机 理解 自然 语言 ， 而 根据 图 灵 的 意见 ， 判 
电 计 算 机 是 否 理解 了 自然 语言 的 最 直观 的 方法 ， 就 是 人 同 计算 机 对 话 ， 
根据 计算 机 对 于 人 们 用 自然 语言 所 提 的 问题 的 回答 ， 就 可 以 看 出 计算 机 
是 否 理解 了 自然 语言 。 这 一 方面 的 研究 不 久 便 取 得 了 令 人 鼓舞 的 进展 。 
因此 ， 当 20 世 纪 60 年 代 末 期 机 器 翻译 困难 重重 、 一 筹 莫 展 的 时 候 ， 自 然 
语言 理解 的 研究 却 左右 着 源 、 后 来 居 上 ， 而 当 机 器 翻译 东山 再 起 、 重 振 
旗 鼓 而 进入 复苏 期 的 时 候 ， 自 然 语言 理解 却 已 获 得 了 累累 的 硕果 。 




















在 本 市 中 ， 我 们 简要 地 介绍 自然 语言 理解 研究 的 发 展 情况 





目 然 语言 理解 系统 的 发 展 可 以 分 为 第 一 代 系统 和 第 二 代 系 统 两 个 阶 
段 。 第 一 代 系统 建立 在 对 词类 和 词 序 分 析 的 基础 之 上 ， 分 析 中 经 常 使 用 
统计 方法 ;第 二 代 系 统 则 开始 引进 语义 甚至 语 用 和 语 境 的 因素 ， 几 乎 完 
全 抛 开 了 统计 技术 。 











第 一 代目 然 语言 理解 系统 又 可 分 为 四 种 类 型 : 


(1) 特殊 格式 系统 : 早期 的 自然 语言 理解 系统 大 多 数 是 特殊 格式 
系统 ， 根 据 人 机 对 话 内 容 的 特点 ， 采 用 特定 的 格式 来 进行 人 机 对 话 。 


1963 年 ， 林 德 赛 CR. Lindsay) 在 美国 卡 内 基 技 术 学 院 用 IPL-V 表 处 
理 语言 设计 了 SAD-SAM 系 统 ， 就 采用 了 特定 格式 来 进行 关于 杀 属 关系 
方面 的 人 机 对 话 ， 系 统 内 建立 了 一 个 关于 杀 属 关系 的 数据 库 ， 可 接收 关 
于 亲属 关系 方面 的 问题 的 英语 句子 提问 ， 用 英语 作出 回答 。 


这 个 系统 分 为 两 个 模块 : SAD 模 块 和 SAM 模 块 。 


SAD 模 块 的 任务 是 作 句 法 分 析 ， 它 接收 输入 的 英语 句子 ， 从 左 到 右 
进行 分 析 ， 建 并 起 这 个 英语 句子 的 推导 树 ， 然 后 ， 把 这 个 能 表示 该 英语 
句子 结构 的 推导 树 传 给 SAM。 


SAM 模 块 的 任务 是 作 语义 分 析 并 作出 回答 。 首 先 ， 它 从 语义 的 角度 
抽取 有 关 亲 属 关 系 的 信息 ， 建 立 起 亲属 关系 树 ， 然 后 根据 数据 库 中 存储 
的 信息 ， 找 出 问题 的 答案 。SAD 模 块 处 理 英 语句 法 结构 的 能 力 较 强 ， 除 
一 般 简 日 句 外 ， 还 能 处 理 一 些 结构 复杂 的 句子 。SAM 模 块 只 能 处 理 杀 属 
关系 方面 的 语义 信息 ， 不 能 处 理 其 它 方面 的 语义 问题 。SAM 在 建立 亲属 
关系 树 时 并 不 考虑 输入 信息 的 顺序 。 如 果 先 输入 的 信息 可 说 明 B 和 C 是 X 
的 后 代 ，D 和 E 是 Y 的 后 代 ， 那 么 ， 束 建立 起 两 个 家 性 单元 ;而 如 果 根 据 
别 的 信息 还 可 以 说 明 E 和 C 有 兄弟 姐妹 关系 ， 那 么 ， 就 可 以 把 这 两 个 家 
姓 单 元 合并 为 一 个 家 性 时 元 。 











但 是 ，SAM 不 能 处 理 某 些 歧义 问题 。 例 如 ， 在 句子 “Joe plays in his 
aunt Jane's yard” 中 ， 珍 妮 (Jane) 或 者 是 乔 (Joe) 的 姑妈 ， 或 者 是 乔 
(Joe) 的 姨妈 ，SAM 对 此 不 能 作出 判断 。 


1968 年 ， 波 布 洛 (D.Bobrow) EF HRERL Z wit I 
STUDENT 系统 。 这 个 系统 能 读 懂 用 英语 写 的 高 中 代数 应 用 题 ， 列 出 方 
程 求解 并 给 出 答案 。 


例如 ，STUDENT 系 统 能 解决 如 下 的 用 英语 写 的 应 用 题 : 


If the number of customers Tom gets is twice the square of 20 per cent 
of the number of advertisements he runs, and the number of advertisements 


he runs is 45, what is the number of customers Tom gets? 


《如 果 汤 姆 争取 得 到 的 顾客 数 是 他 所 出 的 广告 数 的 百 分 之 二 十 的 平 
方 的 两 倍 ， 已 知 他 出 的 广告 数 是 45， 那 么 ， 汤 姆 争取 得 到 的 顾客 数 是 多 
少 呢 ? ) 


STUDENT 系统 中 能 识别 的 英语 句子 可 以 从 如 下 的 基本 模式 推出 
来 : 


(what are * and *) 

C what is *) 

(How many *1 is *) 

(How many * do * have) 
(How many * does * have) 
(find *) 

(find * and *) 

(* is multiplied by *) 

(* is divided by *) 

(** is *) 


C* (*I/verb) *1 *) 


C* C*l/verb) * as many * as * (*1/verb) *) 








其 中 ，* 表 示 任 意 长 度 的 词 串 ，*1 表 示 一 个 单独 的 词 ，(*1/verb) 
表示 必须 用 词典 来 识别 的 一 个 动词 。 


当 计 算 机 解 应 用 题 时 ， 首 先 要 分 析 英 语句 子 ， 理 解 这 个 应 用 题 的 意 
思 ， 然 后 根据 意思 列 出 方程 ， 最 后 ， 利 用 一 个 叫做 SOLVE 的 求解 模块 
来 求解 。 如 果 SOLVE 模 块 求解 失败 ，STUDENT 系 统 还 可 利用 探索 法 进 
一 步 辩 识 题 意 ， 或 者 利用 一 个 叫做 REMEMBER 的 模块 来 补充 有 关 事 
实 ， 以 便 进 一 步 理 解 题 意 。 





例如 ，REMEMBER 模 块 中 可 存储 如 下 信息 : 


feet is the plural of foot 
(feet 是 foot 的 复数 ) 

one half always means 0.5 
一半 总 是 意味 着 0.5) 


Successful candidates sometimes means students who passed the 





admissions test 
《成 功 的 投考 者 有 时 是 指 那些 通过 了 入 学 考试 的 学 生 ) 
distance equals Speed times time 
(距离 等 于 速度 乘 时 间 ) 
one foot equals 12 inches 
(一 英尺 等 于 12 英 寸 ) 





如 果 查 了 REMEMBER 模 块 还 失败 ，STUDENT 系 统 还 可 以 同 用 户 提 
问 ， 了 人 解 更 多 的 信息 ， 继 续 利 用 探索 法 求解 ， 每 当 探 过 成功， 就 可 以 把 
得 到 的 新 信息 存 入 SOLVE 模 块 中 ， 从 而 增强 SOLVE 模 块 的 能 力 。 最 





后 ， 如 果 求 解 成 功 ，STUDENT 系 统 就 把 求 得 的 解 用 英语 打印 出 来 ， 如 
果 解 不 出 来 ， 则 回答 它 不 能 解决 这 个 应 用 题 。 例 如 ， 上 面 的 那个 应 用 题 
求解 成 功 后 ，STUDENT 系 统 用 英语 打印 出 如 下 的 解 : 


“The number of customers Tom gets is 162” 


(汤姆 争取 到 的 顾客 数 是 162) 


STUDENT 系 统 解 决 高 中 代数 应 用 题 的 能 力 很 强 ， 算 题 速度 也 很 
快 。 有 一 次 在 麻 省 理工 学 院 (MIT) 试验 时 ， 它 解 题 的 速度 甚至 比 一 个 
研究 生还 要 快 。 


20 世 纪 60 年 代 初 期 ， 格 林 (B. | Green) 在 美国 林肯 实验 室 建 立 了 
BASEBALL 系 统 ， 也 使 用 IPL-V 表 处 理 语言 ， 系 统 的 数据 库 中 存 贮 了 关 
于 美国 1959 年 联邦 棒球 赛 得 分 记录 的 数据 ， 可 回答 有 关 棒 球赛 的 一 些 问 


fe 








BASEBALL 系 统 句法 分 析 能 力 较 差 ， 输 入 句子 十 分 简单 ， 没 有 连接 
W) Cland, or, not) ， 也 没有 比较 级 〈 如 higher，longer) ， 主 要 是 靠 
一 部 大 词典 来 进行 单词 的 识别 ， 使 用 十 四 个 词类 范畴 ， 所 有 的 问题 都 采 
用 一 种 特殊 的 规范 表达 式 来 回答 。 


工作 时 ，BASEBAILEL 系 统 从 右 到 左 扫描 输入 的 英语 句子 ， 把 该 句子 
转换 为 功能 短语 ， 找 出 关键 词 ， 再 把 该 功能 短语 改写 成 一 份 说 明 表 。 这 
种 说 明 表 实质 上 是 代表 所 提 的 问题 的 意义 的 规范 表达 式 。 例 如 : 


“How many games did the Yankees play in July?” (EH M] 
Yankees BA X47 Y JUX E638?) 


这 个 问题 经 过 BASEBALL 处 理 后 ， 变 为 如 下 的 规范 表达 式 : 


TEAM -YANKEES 
MONTH -JULY 


GAMES (数目 ) GAMES (数目 ) 


其 中 ，TEAM 表 示 队 名 ， 分 析出 队 名 为 YANKEES，MONTH 表 示 月 
份 ， 分 析出 月 份 为 JULY (EA) ，GAMES 数 表示 比赛 次 数 ， 是 需要 回 
答 的 问题 ， 用 问号 “? ”表示 。 


根据 这 样 的 问题 ，BASEBALL 在 数据 库 中 进行 搜索 ， 碍 出 数据 库 中 
与 该 问题 相 匹 配 的 数据 条 目 ， 然 后 ， 输 出 这 些 数 据 ， 作 出 回答 。 


由 于 BASEBALEL 系 统 的 词典 容量 较 大 ， 可 用 试探 法 解决 某 些 区 义 问 
题 〈 例 如 ，score 可 为 动词 “记分 ”人 亦 可 为 名 词 “ 记 录 ”，Boston 可 为 地 
名 “波士顿 市 ”， 亦 可 为 球 队 名 “波士顿 队 *”) ，BASEBALL 可 作出 判断 。 


BASEBALL 的 程序 不 能 修改 数据 库 中 的 数据 ， 因 此 ， 这 个 系统 没有 
演绎 推理 的 能 力 。 


(2) 以 文本 为 基础 的 系统 : 某 些 研究 者 不 满意 在 特殊 格式 系统 中 
的 种 种 格式 限制 ， 因 为 就 一 个 专门 领域 来 说 ， 最 方便 的 还 是 使 用 不 受 特 
殊 格 式 结构 限制 的 系统 来 进行 人 机 对 话 ， 这 就 出 现 了 以 文本 为 基础 的 系 
统 。 





1966 年 西蒙 斯 (R.F. Simmons) 、 布 尔格 (J.F. Burger) 和 龙 格 
(R.E. Long) 设计 的 PROTOSYNTHEX-I 系 统 ， 就 是 以 文本 信息 的 存 贮 
和 检索 方式 工作 的 。 





(3) 有 限 逻 辑 系 统 ， 有 限 逻 辑 系 统 进一步 改进 了 以 文本 为 基础 的 


系统 。 在 这 种 系统 中 ， 目 然 语 言 的 句子 以 茶 种 更 加 形式 化 的 记号 来 蔡 
代 ， 这 些 记号 组 成 一 个 有 限 馆 辑 系统 ， 可 以 进行 东 些 推理 。 


1968 年 ， 拉 菲 尔 (B. Raphael) 在 美国 麻 省 理工 学 院 用 LISP 语 言 建 
立 了 SIR 系 统 ， 针 对 英语 提出 了 24 个 匹配 模式 ， 把 输入 的 英语 句子 与 这 
些 模式 相 匹 配 ， 从 而 识别 输入 句子 的 结构 ， 在 从 存 贮 知识 的 数据 库 到 回 
答 问 题 的 过 程 中 ， 可 以 处 理 人 们 对 话 中 常用 的 一 些 概念 ， 如 集合 的 包含 
关系 、 空 间 关 系 等 等 ， 还 可 以 做 简单 逻辑 推理 ， 机 器 并 能 在 对 话 中 进行 
学 习 ， 记 住 已 学 过 的 知识 ， 从 事 一 些 初 步 的 智能 活动 。 

SIR 中 针对 英语 提出 了 24 个 匹配 模式 ， 把 输入 的 英语 句子 与 这 些 模 
式 相 匹配 ， 从 而 识别 输入 句子 的 结构 。SIR 还 能 处 理 人 们 对 话 中 常用 的 
一 些 概念 ， 如 集合 的 包含 关系 、 空 间 关 系 等 等 ， 这 样 ， 它 就 能 作 初 步 的 
逻辑 推理 ， 使 这 个 系统 有 一 点 “智能 ”。 


例如 ，SIR 系 统 中 提出 了 如 下 的 模式 : 


* is * 
x is part of * 
there are * on * 
Is * * E: 
How many * does x have? 
what is the * of x ? 





其 中 ，* 表 示 名 词 ， 这 样 的 名 词 前 可 用 限定 词 a，the，every，each 
或 数 词 来 修饰 ， 当 输入 句子 与 这 些 模 式 相 匹配 时 ，SIR 系 统 会 触发 出 一 
定 相 应 的 动作 ， 从 而 进行 人 机 对 话 。 


下 面 是 SIR 系 统 进行 的 人 机 对 话 的 一 个 片段 : 


人 : Every boy is a person. 

〈 每 个 男孩 都 是 人 。 ) 

机 : I understand. 

(我 明日 了 。) 

人 : A finger is part of a hand. 

GB3 EF RI BEA. ) 

机 : I understand. 

(我 明日 了 。) 

人 : There are two hands on each person. 

(每 个 人 有 了 两 只 手 。) 

Dl: I understand. 

(我 明日 了 。) 

人 : How many fingers does John have? 

CABAL GBA? ) 

机 : The above sentence is ambiguous but I assume (has) 
means Chas as parts) . 

I don't know whether finger is part of John. 

《上 句 话 是 有 歧义 的 ， 但 我 假定 “有 ”的 意思 是 “作为 各 个 部 分 的 
有 ”。 我 不 知道 指头 是 不 是 约翰 的 一 部 分 。) 

人 : John is a boy. 

(约翰 是 一 个 男孩 。) 

机 : I understand. 

(我 明日 了 。) 

人 : How many fingers does John have? 


CIA JLA?) 











机 : The above sentence is ambiguous but I assume (has) 
means (has as parts) . How many fingers per hand? 

《上 和 句 话 是 有 歧义 的 ， 但 我 假定 “有 ”的 意思 是 “作为 各 个 部 分 的 
A”. SERTEARUULT BIS? ) 

Ak: Every hand has 5 fingers. 

《每 只 手 有 五 个 指头 。) 


机 : The above sentence is ambiguous but I assume (has) 














means Chas as parts) . The answer is 10. 

《上 句 话 是 有 歧义 的 ， 但 我 假定 “有 ”的 意思 是 “作为 各 个 部 分 
的 “有 ”。 管 案 是 10。) 

人 : Who is President of the United States? 

( 谁 是 美国 的 总 统 ? ) 

机 : Statement form not recognized. 


(该 句子 的 型 式 我 不 能 辨识 。) 











在 上 述 对 话 中 ， 机 器 分 析 与 24 个 模式 相 匹 配 的 句子 ， 对 于 这 些 名 
子 ， 机 器 能 利用 系统 中 已 存储 的 一 些 概念 进行 简单 的 推理 。 例 如 ， 在 前 
面 几 个 问答 中 ， 机 器 知道 了 如 下 知识 : 


QD 男孩 是 人 ; 
己 指头 是 手 的 一 部 分 ; 
(3) 每 个 人 有 两 只 手 。 


ZAHARA JLA? ”的 时 候 ， 由 于 这 时 机 器 不 知道 约翰 是 不 
是 人 ， 因 而 就 无 法 判断 指头 是 不 是 约翰 号 体 上 的 一 部 分 ， 在 这 种 情况 
下 ， 机 器 急切 地 想 知 道 约 朝 是 不 是 人 。 当 人 提示 机 需 “ 约 于 是 一 个 男 





孩 ” 的 时 候 ， 机 器 利用 已 经 知道 的 信息 ， 马 上 可 以 推出 “约翰 是 一 个 
人 ”， 而 人 是 有 两 只 手 的 ， 指 头 是 手 的 一 部 分 ， 因 而 指头 也 必然 是 约翰 
号 体 上 的 一 部 分 。 








确定 了 指头 是 约翰 身体 上 的 一 部 分 之 后 ， 由 于 机 器 知道 约翰 是 人 ， 
人 有 两 只 手 ， 故 机 器 可 推出 约翰 有 两 只 手 。 这 时 ， 为 了 算出 约翰 有 几 个 
指头 ， 必 须知 道 每 只 手 有 几 个 指头 ， 于 是 ， 机 器 便 问 :“ 每 只 手 有 几 个 
指头 ? ”人 回答 后 ， 机 器 知道 了 每 只 手 有 五 个 指头 ， 因 此 ， 机 器 便 可 作 
出 判断 ， 作 出 回答 : “答案 是 10?， 即 约翰 有 10 个 指头 。 














我 们 可 以 看 到 ， 在 这 个 人 机 对 话 中 ， 机 器 一 方面 要 识别 句子 的 结 
构 ， 男 一 方面 也 得 进行 一 些 人 简单 的 推理 ， 自 己 在 对 话 中 进行 学 习 ， 并 记 
住 已 学 到 的 知识 ， 从 事 一 些 初步 的 智能 活动 。 





对 于 24 个 匹配 模式 之 外 的 句 型 ， 机 器 是 不 能 识别 的 。 当 人 问 “who 
is President of the United states?” 时 ， 由 于 机 器 没有 分 析 这 种 句 型 的 能 
力 ， 因 此 它 回 答 :“ 该 句子 的 型 式 我 不 能 辨识 ”。 


1965 年 ， 斯 莱 格 勒 CLR. Slagle) 建立 了 DEDUCOM 系 统 ， 可 在 信 
恩 检 索 中 进行 演绎 推理 。 


19664F, RŽ (F.B. Thompson) 建立 了 DEACON 系 统 ， 通 过 英 
语 来 管理 一 个 虚构 的 军用 数据 库 ， 设 计 中 使 用 了 环 结构 和 近似 英语 的 概 
念 来 进行 推理 。 


1968 年 ， 凯 罗 格 (C. Kelog) 在 IBM ”360/67 计 算 机 上 ， 建 立 了 
CONVERSE 系 统 ， 该 系统 能 根据 关于 美国 120 个 城市 的 1 000 个 事实 的 文 
件 来 进行 推理 。 


(40 一 般 演绎 系统 ， 一 般 演绎 系统 使 用 某 些 标准 数学 符号 〈 如 谓 
词 演算 符号 ) 来 表达 信息 。 例 如 ， 








Some girls are pretty 
有些 女孩 是 漂亮 的 ) 





这 个 英语 句子 可 表示 为 


dx (Girl (x) & Pretty (x) ) ， 
Every girl is pretty 
《所 有 的 女孩 都 漂 腕 


这 个 一 英语 句子 可 以 表示 为 
V x (Girl (x) 5 Pretty (x) ). 
FUR, SUÉGHUS S. o aT Ss, ZA UR. We 
OER, RACE re FEE HA VE EES eB ea, LAY DA 
用 来 作为 建立 有 效 的 演绎 系统 的 根据 ， 从 而 能 够 把 任何 一 个 问题 用 定理 
证 明 的 方式 表达 出 来 ， 并 实际 地 演绎 出 所 需要 的 信息 ， 用 上 自然 语言 作出 


回答 。 一 般 演 绎 系统 可 以 表达 那些 在 有 限 逻 辑 系统 中 不 容易 表达 出 来 的 
复杂 信息 ， 从 而 进一步 提高 了 目 然 语言 理解 系统 的 能 


1968 一 1969 年 ， 格 林 和 拉 菲 尔 建立 的 QA2， QA3 系 统 ， 采 用 谓词 演 
算 的 方式 和 格式 化 的 数据 (formated data) 来 进行 演绎 推理 ， 解 答 问 
题 ， 并 用 英语 作出 回答 ， 这 是 一 般 演绎 系统 的 典型 代表 。 


以 上 介绍 的 各 种 系统 都 属于 第 一 代目 然 语言 理解 系统 。 





1970 年 以 来 ， 出 现 了 一 定数 量 的 第 二 代 自 然 语言 理解 系统 ， 这 些 系 
统 绝 大 多 数 是 程序 演绎 系统 ， 大 量 地 进行 语义 、 语 境 以 至 语 用 的 分 析 。 
其 中 比较 有 名 的 系统 是 LUNAR 系 统 、SHRDLU 系 统 、MARGIE 系 统 、 
SAM 系 统 、PAM 系 统 。 





LUNAR 系 统 是 伍兹 于 1972 年 设计 的 一 个 自然 语言 情报 检索 系统 ， 
其 目的 在 于 帮助 地 质 学 家 们 比较 和 评价 从 阿波 罗 -11 火 第 得 到 的 关于 月 
球 岩 石和 土壤 的 组 成 成 分 的 化 学 分 析 数 据 ， 这 个 系统 采用 形式 提问 语言 
(formal query language) 来 表示 所 提问 的 语义 ， 从 而 对 提问 的 句子 作出 
语义 解释 ， 最 后 把 形式 提问 语言 执行 于 数据 库 ， 产 生出 对 问题 的 回答 。 





这 个 系统 有 一 定 的 实用 性 ， 显 示 了 自然 语言 理解 系统 对 科学 和 生产 
的 积极 作用 ， 因 而 大 大 地 推动 了 这 方面 的 研究 工作 。 


LUNAR 系 统 的 工作 可 分 为 三 个 阶段 : 
第 一 阶段 : 句法 分 析 


采用 ATN 扩充 转移 网 络 ) 及 语义 探索 方法 产生 出 所 提问 题 的 推导 
树 。LUNAR 系 统 能 处 理 大 部 分 英语 的 提问 句 型 ， 词 典 容量 是 3,500 词 ， 
可 以 解决 时 态 、 语 式 、 代 词 所 指 、 比 较 级 、 关 系 从 名 以 及 某 些 能 入 成 分 
结构 等 较为 困难 的 问题 。 不 过 ， 在 分 析 连 接 词 以 及 解决 修饰 词 的 某 些 政 
义 问 题 时 ， 还 常常 会 出 现 麻烦 。 该 系统 已 足以 处 理 地 质 学 家 们 经 常用 来 
提问 的 那些 英语 句 型 了 。 


下 面 是 LUNAR 系 统 能 够 理解 的 一 些 英 语句 子 : 


1. What is the average concentration of aluminium in high alkali rocks? 


(高 碱 性 岩石 中 铝 的 平均 密集 度 是 多 少 ? ) 


2. What samples contain P205? 
〈 哪 一 些 样本 中 含有 P205? ) 
3. Give me the modal analyses of P205 in those samples. 


(给 我 作出 这 些 样本 中 P205 的 常规 分 析 。) 

第 二 阶段 : 语义 解释 

用 形式 提问 语言 (formal query language) 来 表示 所 提问 题 的 语义 ， 
从 而 对 提问 的 句子 作出 语义 解释 。 

形式 提问 语言 由 三 部 分 组 成 : 


i 标志 符 : 它 标志 在 数据 库 中 所 存储 事物 的 类 别 ; 
ii. 语句 : 它 由 谓语 及 论 元 组 成 ， 而 论 元 就 是 标志 符 ; 
ii. FES: 它 可 启动 一 个 动作 。 





例如 : (TEST (CONTAIN S10046 OLIV) ) 是 形式 提问 语言 的 一 
个 表达 式 。 其 中 ，S10046 是 某 种 样本 的 标志 符 ，OLIV 是 橄 榴 石 这 种 矿 
物 的 标志 符 ，CONTAIN 是 谓词 ，TEST 是 真 值 检 查 指 令 。 这 个 表达 式 的 
意思 是 : 检查 在 样本 S10046 中 是 不 是 含有 橄榄 石 这 种 矿物 。 














形式 提问 语言 有 一 种 带 有 量词 函数 FOR 的 表达 式 ， 形 式 如 下 : 


(FOR QUANT X/CLASS: PX; QX) 





其 中 ，QUANT 是 如 each，every， 数 字 等 这 样 的 逻辑 量词 ，X 是 要 
用 这 样 的 量词 来 说 明 的 变量 ，CLASS 确 定量 词 所 涉及 的 事物 的 范围 ， 
PX 表 示 对 这 个 范围 加 的 限制 ，QX 是 要 用 量词 来 说 明 的 语句 或 指令 。 


例如 ， (FOR EVERY X1/ (SEQ TYPECS) : T; (PRINTOUT 


XD ) 就 是 一 个 这 样 的 形式 提问 语句 。 其 中 ，SEQ 表 示 枚 举 ， 
PRINTOUT 表 示 打 印 论 元 的 标志 符 ， 由 于 对 量词 的 范围 没有 限制 ， 所 
以 ，PX=T。 


这 个 形式 提问 语句 的 意思 是 :“ 枚 举 出 所 有 类 型 为 C 的 样本 的 样本 数 
并 打印 出 来 。” 


第 三 阶段 : 回答 问题 

把 形式 提问 语言 表达 式 执行 于 数据 库 ， 产 生出 对 问题 的 回答 。 
LUNAR 系 统 的 一 个 完整 的 操作 例子 如 下 : 

提问 : 


(Do any samples have greater than 13 percent aluminium ) 


〈 举 出 任意 的 含 铝 量 大 于 百 分 之 十 三 的 样本 ) 
经 过 分 析 后 得 出 的 形式 提问 语言 为 


(TEST (FOR SOME X1/ CSEQ SAMPLES) : T; 
CCONTAIN XI 


(NPR' X2/AL203) (GREATERTHAN 13 PCT) ) ) D 


YES 
然后 ，LUNAR 系 统 可 枚 举 出 一 些 含 铝 量 大 于 百 分 之 十 三 的 样本 。 


LUNAR 系 统 的 专业 范围 有 严格 的 限制 ， 在 语言 处 理 中 尽量 解 诀 那 


些 常 见 的 语法 现象 ， 不 花 过 多 的 精力 去 解决 那些 目前 水 平 还 不 能 解决 的 
复杂 问题 ， 因 而 能 很 快 地 投入 实用 ， 为 地 质 学 家 们 提供 了 一 个 有 用 的 目 
然 语 言 信息 检索 系统 。 


SHRDLU 系 统 是 维 诺 格拉 德 (T. Winograd) 于 1972 年 在 美国 麻 省 理 
工学 院 建立 的 一 个 用 自然 语言 指挥 机 器 人 动作 的 系统 。 该 系统 把 句法 分 
析 、 语 义 分 析 、 逻 辑 推 理 结合 起 来 ， 大 大 地 增强 了 系统 在 语言 分 析 方 面 
的 功能 。 该 系统 对 话 的 对 象 是 一 个 具有 简单 的 “ 手 ” 和 “ 眼 ” 的 玩具 机 器 
人 ， 它 可 以 操作 放 在 果子 上 的 具有 不 同 颜色 、 尺 寸 和 形状 的 玩具 积 
如 立方 体 、 棱 锥 体 、 盒 子 等 ， 机 器 人 能 够 根据 操作 人 员 的 命令 把 这 些 积 
木 捡 起 来 ， 移 动 它们 去 搭 成 新 的 积木 结构 ， 在 人 机 对 话 过 程 中 ， 操 作 人 
员 能 获得 他 发 给 机 器 人 的 各 种 视觉 反馈 ， 实 时 地 观察 机 器 人 理解 语言 、 
执行 命令 的 情况 。 在 电视 屏幕 上 还 可 以 显示 出 这 个 机 器 人 的 模拟 形象 以 
及 它 同 一 个 真正 的 活 人 在 电 传 机 上 自由 地 用 英语 对 话 的 生动 情景 。 











图 15.1 SHRDLU 系统 示意 图 


下 面 是 SHRDLU 系 统 中 人 和 计算 机 之 间 的 一 段 对 话 : 


人 问 : PICK UP A BIG RED BLOCK. 
机 答 OK. 抓 起 大 的 红色 积木 块 ) 


Al]: GRASP THE PYRAMID. 

机 答 : I DONT UNDERSTAND WHICH PYRAMID YOU 
MEAN. 

Al]: FIND A BLOCK WHICH IS TALLER THAN THE ONE 
YOU ARE HOLDING AND PUT IT INTO THE BOX. 

HLA: BY*IT", I ASSUME YOU MEAN THE BLOCK WHICH 
IS TALLER THAN THE ONE I AM HOLDING. 

HÆ: OK.《〈 抓 起 比 计算 机 拿 着 的 积木 块 更 高 的 积木 块 ， 并 把 
它 放 入 箱子 中 ) 

人 问 : WHAT DOES THE BOX CONTAIN? 

机 答 : THE BLUE PYRAMID AND THE BLUE BLOCK. 

人 问 : WHAT IS THE PYRAMID SUPPORTED BY? 

WIZ: THE BOX. 








读者 可 以 参照 图 5 中 的 示意 图 来 体会 这 段 人 机 对 话 的 内 容 。 


MARGIE 系 统 是 尚 元 于 1975 年 在 美国 斯 坦 福 人 工 智 能 实验 室 研制 出 
来 的 。 该 系统 的 目的 在 于 提供 一 个 自然 语言 理解 的 直观 模型 。 系 统 首 先 
把 英语 句子 转换 为 概念 依存 表达 式 ， 然 后 根据 系统 中 有 关 信 息 进 行 推 
理 ， 从 概念 依存 表达 式 中 推演 出 大 量 的 事实 。 由 于 人 们 在 理解 句子 时 ， 
总 要 牵涉 到 比 句 子 的 外 部 表达 多 得 多 的 内 容 ， 因 此 ， 该 系统 的 推理 有 16 
种 类 型 ， 如 原因 、 效 应 、 说 明 、 功 能 等 等 ， 最 后 ， 把 推理 的 结果 转换 成 
英语 输出 。 





SAM KZ eB UR AR (R. Abelson) 于 1975 年 在 美国 耶鲁 大 学 建立 
的 。 这 个 系统 采用 “脚本 ”(script) 的 办 法 来 理解 自然 语言 写 的 故事 。 所 
谓 脚 本 ， 融 是 用 来 描述 人 们 活动 〈 如 上 饭馆 、 看 病 ) 的 一 种 标准 化 的 事 
件 系 列 。 疝 元 和 阿 贝尔 森 假 定 ， 每 个 人 在 他 自己 的 生活 实践 中 ， 会 自然 








而 然 地 意识 到 这 样 的 脚本 ， 在 理解 故事 时 ， 这 些 脚 本 可 以 用 来 构建 时 间 
发 生 的 语 境 ， 因 而 也 就 可 以 用 来 预料 它 所 代表 的 事件 的 情况 ， 并 以 这 些 
脚本 为 背景 来 理解 自然 语言 ， 对 故事 中 的 人 物 、 地 点 、 事 件 进 行 推理 ， 
在 推理 过 程 中 ， 给 它们 补充 新 的 信息 ， 最 后 采用 “ 同 义 互 

Wl" (paraphrase) 的 方法 ， 根 据 计 算 机 理解 的 结果 ， 由 计算 机 复述 原来 
的 故事 。 复 述 时 ， 由 于 在 推理 过 程 中 补充 了 许多 新 的 信息 ， 因 而 所 复述 
的 故事 的 内 容 会 比 原来 的 故事 要 丰富 得 多 。 计 算 机 似乎 像 一 个 有 理智 的 
活 人 ， 把 在 推理 过 程 中 所 推出 的 新 信息 加 到 故事 中 ， 添 油 加 酷 地 把 原来 
的 故事 说 得 更 加 精彩 。 例 如 ， 输 入 这 样 的 简单 的 故事 : “约翰 走 进 了 一 
家 饭馆 。 他 坐 了 下 来 。 他 生气 了 。 他 走 了 。?”SAM 系 统 的 输出 为 : A 
俄 了 。 他 决定 到 饭馆 去 。 他 走 进 了 一 家 饭馆 。 服 务 员 没 理 他 。 于 是 约翰 
生气 了 。 他 决定 离开 这 个 饭馆 。? 计 算 机 推论 出 ， 约 戎 离开 饭馆 的 原因 
是 坐 下 来 之 后 没有 得 到 服务 。 这 是 因为 在 关于 饭馆 的 “脚本 >” 中， 有”“ 服 
务 员 送 染 单 ” 的 项 目 ， 而 输入 句子 中 没有 这 样 的 内 容 ， 却 有 约 鞭 生气 的 
句子 ， 因 此 ，SAM 系 统 作 出 了 这 样 的 推论 。 























PAM 系 统 是 威 林 斯 基 CR. Wilensky) 于 1978 年 在 美国 耶鲁 大 学 建立 
的 男 一 个 理解 故事 的 系统 。PAM 系 统 也 能 解释 故事 情节 ， 回 答 问 题 ， 进 
行 推 论 ， 作 出 摘要 。 它 除了 “脚本 ”中 的 事件 序列 之 外 ， 还 提出 了 “ 计 
Xl" (plan) 作为 理解 故事 的 基础 。 所 谓 * 计 划 ”， 就 是 故事 中 的 人 物 为 实 
现 其 目的 所 要 采取 的 手段 。 如 果 要 通过 “计划 ”来 理解 故事 ， 就 要 找 出 人 
物 的 目的 以 及 为 完成 这 个 目的 所 采取 的 行动 。 系 统 中 设 有 一 个 “计划 
Æ” (plan box) ， 存 贮 着 有 关 各 种 目的 的 信息 以 及 各 种 手段 的 信息 。 这 
样 ， 在 理解 故事 时 ， 只 要 求 出 故事 中 有 关 情 节 与 计划 库 中 存 贮 的 信息 相 
重合 的 部 分 ， 就 可 以 理解 到 这 个 故事 的 目的 是 什么 。 当 把 一 个 一 个 的 故 
事情 节 与 脚本 匹配 出 现 障 碍 时 ， 由 于 “计划 库 ? 中 可 提供 关于 一 般 目 的 的 
信息 ， 就 不 致 造成 故事 理解 的 失败 。 例 如 ， 营 救 一 个 被 暴徒 抢 走 的 人 ， 

















在 “营救 "这 个 总 目的 项 下 列举 出 知 干 个 子 目 的 ， 包 括 到 达 骏 徒 的 隶 穴 以 
及 共 死 暴徒 的 各 种 方法 ， 就 可 以 预期 下 一 步 的 行为 。 同 时 能 根据 主题 来 
推论 目的 。 例 如 ， 输 入 故事 :“ 约 翰 爱 玛丽 。 玛 丽 补 骏 徒 抢 走 了 。?PAM 
系统 即 可 预期 约 蒜 要 采取 行动 营救 玛丽 。 故 事 中 虽然 没有 这 样 的 内 容 ， 
但 是 ， 根 据 计 划 库 中 的 “爱情 主题 ”， 可 以 推出 “ 约 天 要 采取 行动 营救 玛 
丽 ” 的 情节 。 














尚 克 等 学 者 还 进一步 研究 语言 理解 和 记忆 的 关系 ， 概 括 各 种 具体 知 
识 结构 为 一 般 经 验 ， 综 合 句法、 语义 、 知 识 、 推 理 为 一 体 ， 建 成 
FRUMP 和 IPP 两 个 快速 阅读 系统 。 这 两 个 系统 存 贮 2 000 多 个 英语 单词 ， 
对 输入 故事 无 须 逐 字 逐 句 地 分 析 ， 而 是 跳 过 某 些 无 关 的 词语 提取 故事 中 
的 主要 信息 。 这 样 的 系统 可 以 对 报刊 上 一 些 新 闻 故 事 自动 地 做 出 摘要 。 


上 述 的 系统 都 是 书面 的 自然 语言 理解 系统 ， 输 入 输出 都 是 用 书面 文 
字 。 口 头 的 自然 语言 理解 系统 ， 还 牵涉 到 语音 识别 、 语 音 合成 等 复杂 的 
技术 ， 显 然 是 更 加 困难 的 谍 题 ， 口 头目 然 语言 理解 系统 的 研究 近年 来 也 
有 很 大 的 发 展 。 











我 国 自然 语言 理解 的 研究 起 步 较 晚 ， 比 国外 晚 了 17 年 。 国 外 在 1963 
年 就 建成 了 早期 的 自然 语言 理解 系统 ， 而 我 国 直 到 1980 年 才 建 成 了 两 个 
汉语 自然 语言 理解 模型 ， 都 以 人 机 对 话 的 方式 来 实现 。 这 两 个 模型 中 ， 
一 个 是 中 国 社会 科学 院 语言 研究 所 的 “RJD-80 型 汉语 人 机 对 话 系 统 ”( 简 
称 “RJD-80 系 统 ”) ， 属 语言 学 模型 ， 一 个 是 中 国 科 学 院 心 理 研究 所 
的 “机 器 理解 汉语 一 一 实验 I ”CLUS 系统 ”"， 属 心理 学 模型 。 语 言 学 模型 
强调 对 语言 结构 本 身 进行 分 析 ， 而 心理 学 模型 则 强调 模拟 理解 语言 时 的 
心理 活动 ， 注 意 语言 意义 的 理解 。 














1984 年 ， 中 国 社 会 科学 院 语 言 研究 所 叉 进 行 了 “TK-84 型 汉语 人 机 对 


话 系统 ”( 简 称 “TK-84 系 统 ”) 的 研制 。 该 系统 以 铁路 客运 咨询 为 主题 ， 
存 贮 汉语 单词 200 条 ， 句 型 30 多 个 ， 内 容 包括 北京 全 东北 几 条 铁路 客运 


快车 的 到 站 、 
方式 来 实现 。 


例如 ， 


人 问 : 
机 答 : 
人 问 : 
机 答 : 
人 问 : 
机 答 : 


再 如 ， 


AH: 
VE 
AH: 


机 答 : 


要 。 





中 途 站 、 开 点 、 到 点 、 车 次 、 车 种 、 车 组 等 也 以 人 机 对 话 


“从 北京 到 大 连 有 快车 吗 ? ” 

“没有 特快 ， 只 有 下 快 。” 
“有 哪 几 次 直 快 ? ” 

“101/104, 129/132. " 
*153/ 0 LMS?” 

“153 次 走 京 比 线 到 沈阳 ， 不 经 过 唐山 。” 





“ 开 往 沈阳 的 快车 都 有 卧铺 吗 ? ” 

“11 次 没有 卧铺 ， 其 他 都 有 。” 

“11 次 为 什么 没有 卧铺 ? ” 

“11 次 8 点 从 北京 开 ，18 点 49 分 到 沈阳 ， 卧 铺 没 有 必 


可 以 看 出 ， 这 样 的 自然 语言 理解 系统 已 经 具备 了 初步 的 推理 能 
是 一 个 简单 的 上 自动 问答 系统 和 目 然 语言 接口 。 


20 世 纪 80 年 代 中 期 ， 在 国际 新 一 代 计算 机 激烈 竞争 的 影响 下 ， 目 然 
语言 理解 的 研究 在 国内 得 到 了 更 多 的 重视 , “上 自然 语言 理解 和 人 机 接 
口 ? 列 入 了 新 一 代 计算 机 的 研制 规划 ， 研 究 单位 增多 了 ， 研 究 队 伍 也 壮 


A 











1985 年 ， 东 北大 学 姚 天 顺 建立 了 “中 文句 子 及 文本 理解 系统 
CTUS”， 这 是 一 个 基于 概念 的 汉语 理解 系统 ，1988 年 ， 清 华 大 学 黄 昌 宁 
等 提出 汉语 句法 分 析 的 多 扫描 确定 性 算法 ， 建 立 了 一 个 面向 军事 情报 的 
汉语 篇 章 理解 实验 系统 TUSMI， 接 着 又 建立 了 WPS 汉 语 通用 人 机 接口 和 
学 籍 管理 系统 的 汉语 专用 人 机 接口 ，1990 年 ， 南 京 大 学 钱 树 人 等 建立 了 
找 水 专家 系统 的 汉语 专用 人 机 接口 CNLIGW 和 汉语 歧义 分 析 模 型 系统 
CAAMS; 吉林 大 学 黄 祥 喜 等 建立 了 石油 专家 系统 PRES 的 汉语 专用 人 机 
接口 HRJ; 北京 信息 工程 学 院 开 发 了 信息 检索 系统 的 汉语 人 机 接口 ， 中 
国 科 学 院 沈阳 自动 化 研究 所 研制 了 汉语 人 机 接口 NLI-db3; 哈尔滨 工业 
大 学 研制 了 基于 段落 理解 的 汉语 问答 实验 系统 CQAES-II。 




















山西 大 学 计算 机 科学 系 张 永 奎 等 根据 《哺乳 动物 百科 全 书 》 (The 
Macdonald Encyclopedia of Mammals ) 的 描述 文本 ， 建 立 了 哺乳 动物 数 
据 库 ， 并 开发 了 这 个 哺乳 动物 数据 库 的 自然 语言 前 端 (natural language 
front end) ， 用 户 可 用 英语 的 自然 语言 形式 与 哺乳 动物 数据 库 系 统 进行 
人 机 交互 。 











中 国 科 学 院 心理 研究 所 崖 次 、 陈 永明 等 根据 汉语 的 部 分 词汇 与 世界 
现象 之 间 的 对 应 关系 和 人 类 记忆 过 程 的 特征 ， 建 并 了 一 个 适用 于 汉语 篇 
章 理解 的 记忆 模型 ， 这 个 模型 能 够 组 织 汉 语 篇 章 理 解 过 程 中 所 需 的 各 种 
知识 ， 并 将 系统 的 词典 与 知识 库 有 机 地 结合 在 一 起 ， 初 步 建成 了 一 个 汉 
VE i CERA FART. o 


近年 来 ， 目 然 语 言 理解 义 进步 扩大 到 了 目 动 问答 系统 和 目 然 语言 人 
机 接口 的 领域 。 关 于 目 然 语 言 理解 的 这 些 更 加 新 近 的 研究 情况 ， 我 们 将 
在 “ 目 动 问答 系统 ”和 * 目 然 语 言 人 机 接口 ?等 节 介 绍 。 下 面 ， 我 们 具体 地 
分 析 一 下 汉语 上 自然 语言 理解 的 特点 和 困难 。 





第 二 节 汉语 自然 语言 理解 的 特点 
和 困难 


我 国 目 然 语言 理解 研究 虽然 取得 了 一 定 的 成 绩 ， 但 研究 的 深度 还 不 
够 ， 离 实用 化 商品 化 还 有 不 小 的 距离 。 








用 计算 机 对 汉语 进行 自动 的 理解 ， 面 对 的 困难 和 问题 要 比 印 欧 语 系 
的 语言 如 英语 、 俄 语 、 法 语 、 德 语 等 要 多 一 些 ， 除 了 自然 语言 理解 研究 
面 对 的 共性 问题 之 外 ， 汉 语 理解 还 有 自己 特殊 的 困难 和 问题 ， 这 些 困难 
和 问题 主要 在 语言 方面 。 大 致 归纳 如 下 : 








(1) 汉语 的 书面 形式 是 连续 书写 的 ， 词 与 词 之 间 没 有 目 然 的 界 
限 ， 因 此 ， 汉 语 的 目 然 语言 理解 首先 要 解决 单词 的 上 自动 切 分 问题 ， 而 汉 
语 既 无 词尾 形态 标记 ， 又 基本 上 没有 形态 变化 ， 目 动 切 词 的 难度 很 大 。 








(20 大 多 数 汉 语 的 词 本 号 不 能 明确 地 表达 语法 意义 ， 汉 语 的 句法 
主要 徘 词 序 和 虚词 来 表示 ， 而 汉语 句子 的 词 序 比较 灵活 ， 第 用 虚词 的 用 
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表达 不 同 的 涵义 ， 其 中 的 许多 规律 ， 人 至今 尚 迷离 朴 朔 ， 不 知 所 以 ， 这 
样 ， 要 把 词 序 和 虚词 所 带 的 语法 信息 以 形式 化 的 方式 提供 给 计算 机 ， 束 
是 一 件 十 分 困难 的 语言 学 研究 工作 。 这 件 工作 现在 才刚 刚 起 步 ， 尚 无 重 
大 突破 。 














(3) 汉语 的 实 词 也 需要 深入 辨析 ， 特 别 是 常用 动词 ， 其 意义 和 用 
法 千差万别 ， 莫 谚 一 是 ， 而 其 意义 和 用 法 的 不 同 点 ， 恰 恰 是 理解 汉语 语 
义 的 重要 依据 ， 因 此 ， 必 须 确 切 地 描写 汉语 实 词 《特别 是 动词 ) 的 各 种 


用 法 ， 指 出 其 用 法 上 的 区 别 ， 说 明 其 使 用 和 条件， 建立 产生 式 的 汉语 语法 
体系 ， 并 且 用 形式 化 的 方式 将 其 表示 出 来 。 这 是 十 分 浩 繁 的 工作 ， 目 前 
才 者 手 进 行 。 





(4) 汉语 的 形容 词 一 般 可 以 作 谓 语 和 定语 ， 但 是 ， 有 许多 形容 记 
不 能 做 谓语 ， 又 有 一 些 形容 词 不 能 直接 作 定语 ， 必 须 具体 地 说 明 形 容 记 
作 谓 语 或 作 定语 的 条 件 ， 而 目前 在 这 方面 的 研究 才刚 刚 起 步 。 


(5) 汉语 中 名 词 修 饰 名 词 时 十 分 自由 ， 有 时 加 “的 >， 有 时 不 
加 “的 ?， 一 连 串 的 名 词 登 加 在 一 起 ， 可 以 形成 层次 非常 复杂 的 侦 正 结 
构 ， 计 算 机 对 于 这 样 复杂 的 结构 的 目 动 分 析 往 往 显 得 无 能 为 力 ， 而且 ， 
名 词 修饰 名 词 也 不 是 十 分 自由 的 ， 我 们 对 于 名 词 修饰 名 词 的 条 件 还 没有 
作 过 充分 的 研究 。“ 名 词 + 名 词 * 这 样 的 结构 本 里 在 句法 上 还 存在 歧义 。 








(6) 连 动 式 和 兼 语 式 是 汉语 的 两 种 特殊 名 型， 在 这 样 的 特殊 句 型 
以 及 由 多 个 动词 构成 的 句子 中 ， 由 于 香干 个 动词 或 动词 词组 相互 连接 时 
没有 明显 的 形式 标志 ， 主 要 动词 淹没 在 一 大 堆 动 词 之 中 ， 计 算 机 往往 难 
于 确定 其 中 的 主要 动词 ， 而 如 果 主 要 动词 的 判定 有 误 ， 整 个 结构 的 分 析 
必定 失败 。 在 兼 语 式 中 ， 兼 语义 作 主 语 ， 又 作 宾 语 ， 使 得 句子 中 除了 原 
来 的 主语 之 外 ， 又 出 现 了 一 个 兼作 宾语 的 新 主语 ， 句 子 中 出 现 一 个 以 上 
的 主语 ， 与 传统 的 印 欧 语 中 “主语 + 谓语 ?那样 的 一 个 主语 和 一 个 谓语 单 
纯 地 相互 结合 的 句 式 有 很 大 不 同 ， 也 给 汉语 的 上 自动 句法 分 析 带 来 极 大 的 
困难 。 























CD) 汉语 的 量词 特别 丰富 ， 量 词 与 名 词 之 间 有 着 固定 的 搭配 关 
系 ， 有 时 ， 数 量 结构 与 名 词 的 位 置 剖 前 训 后 也 比较 自由 ， 而 且 ， 许 多 量 
词 又 可 兼作 名 词 ， 有 的 名 词 不 能 受 数量 结构 的 修饰 ， 量 词 的 分 析 和 判定 
也 是 汉语 自动 理解 中 的 一 个 难题 。 





(8) 汉语 句子 中 的 主语 和 谓语 之 间 ， 没 有 性 、 数 的 一 致 关系 ， 又 
各 着 出 现 省 略 主语 或 谓语 的 现象 ， 使 得 句子 中 主要 句子 成 分 的 确定 变 得 
非常 再 手 ， 而 如 果 主 要 句子 成 分 的 判定 出 现 错误 ， 整 个 句子 的 分 析 也 惑 
失败 了 。 








(9) 汉语 的 基本 句 式 “ 主 一 谓 一 宾 ” 结 构 与 英语 相似 ， 都 是 
NP+VP+NP， 表 层 结构 的 分 析 并 不 困难 ， 但 是 ， 表 层 的 句法 结构 远 远 不 
能 满足 汉语 自然 语言 理解 的 需要 ， 词 与 词 以 及 词组 与 词组 之 间 的 句法 关 
系 和 语义 关系 才 是 问题 的 核心 。 而 汉语 基本 人 句 式 中 的 NP 与 VP 之 间 的 句 
法 关系 和 语义 关系 是 错综复杂 的 ， 我 们 不 能 仅仅 根据 词组 类 型 就 判定 词 
与 词 之 间 的 句法 结构 ， 也 不 能 仅仅 根据 句法 结构 就 判定 词 与 词 之 间 的 语 
义 关 系 ， 往 往 还 要 根据 上 下 文 和 一 定 的 背景 知识 才能 做 出 较为 准确 的 判 
Ir. 



































(10) 汉语 中 还 有 许多 自己 特有 的 常见 句 式 ， 其 中 的 语义 关系 不 易 
分 析 。 例 如 ，NP1+NP2+...+NPn+VP 这 样 的 结构 中 ， 各 个 NP 的 语义 关系 
必须 研究 它们 与 其 他 句 式 之 间 的 转换 过 程 才 能 说 清楚 。 又 如 ， 
NP+VP1+VP2+...+VPn 这 样 的 结构 ， 只 有 NP 一 个 单项 主语 时 ， 各 个 VP 
之 间 的 语义 关系 可 以 从 不 同 的 角度 来 分 析 ， 似 乎 都 言 之 成 理 ， 但 目前 还 
没有 统一 的 准则 ;，NP 省 略 时 ， 出 现 主语 上 暗 转 的 现象 ， 这 种 主语 暗 转 和 
省 略 的 句子 ， 在 汉语 里 十 分 普遍 ， 要 进行 推理 和 判断 才能 理解 ， 而 推理 
和 判断 又 必须 根据 生活 利 识 、 上 下 文 语 境 以 及 整 段 文章 的 主题 才能 确 
AES 








(11) 汉语 中 存在 着 大 量 的 蚊 义 现象 。 我 们 在 第 五 章 中 说 过 ， 层 义 
古 目 然 语言 的 计算 机 理解 面临 的 一 个 严重 问题 。 人 依靠 丰富 的 生活 知识 
和 对 母语 的 熟练 掌握 ， 在 日 党 语言 交际 中 能 排除 大 量 的 监 义 ， 误 解 的 可 
能 性 很 小 。 但 是 ， 计 算 机 不 可 能 把 一 个 人 的 全 部 知识 贮存 在 机 器 中 ， 而 








一 个 小 型 的 上 自然 语言 理解 系统 所 能 容纳 的 词汇 、 名 法、 语义 和 背景 知识 
更 是 少数 ， 遇 到 有 歧义 的 句子 时 ， 误 解 或 不 解 的 可 能 性 必然 会 大 大 增 

加 。 这 种 情况 ， 在 汉语 中 尤其 严重 ， 因 此 ， 需 要 分 析 汉 语 中 攻 义 产生 的 
各 种 原因 ， 据 以 建立 起 茶 些 有 效 的 规则 ， 以 便 消除 监 义 。 词 汇 部 分 的 长 
义 就 是 一 词 多 义 ， 需 要 一 部 汉语 常用 词 用 法 词典 来 解决 。 色 法 部 分 的 长 
义 则 需要 依靠 上 下 文 分 析 和 背景 知识 ， 才 能 作出 一 定 程 度 的 解决 。 为 了 
使 上 下 文 分 析 和 背景 知识 的 分 析 有 足够 的 形式 上 的 依据 ， 首 先 要 详细 地 
描述 汉语 中 各 种 歧义 结构 ， 为 此 ， 还 应 当 组 织 人 力 编 写 一 部 描写 汉语 的 
句法 规则 和 语义 规则 的 基础 语法 ， 在 这 样 的 基础 语法 中 ， 要 以 产生 式 理 
论 为 指导 ， 详 细 说 明 各 种 结构 形式 的 出 现 条 件 和 语义 用 法 的 使 用 条 件 。 








(12) 汉语 是 一 种 分 析 型 语言 ， 语 义 分 析 在 汉语 研究 中 起 着 举 足 轻 
重 的 作用 。 一 个 句子 ， 只 要 把 词 的 意义 和 意义 之 间 的 关系 弄 清楚 了 ， 那 
么 ， 整 个 句子 的 含义 也 昭然 知 扬 了 。 我 们 的 祖先 不 讲 主语 、 谓 语 、 宾 语 
和 和 名词 、 动 词 、 形 容 词 这 些 印 欧 语 言 的 语法 概念 ， 照 样 可 以 看 文章 ， 可 
以 进行 语文 教学 ， 束 是 因为 汉语 的 结构 特别 注重 语义 ， 特 别 倾 向 于 使 用 
王 力 教授 所 说 的 “ 意 合法 ”。 任 何 一 个 完善 的 卓然 语言 理解 系统 都 要 进行 
句法 分 析 和 语义 分 析 ， 但 是 ， 人 句法 分 析 和 语义 分 析 在 上 自然 语言 理解 中 所 
占 的 比例 是 因 语 言 而 寞 的 。 根 据 我 们 研究 各 种 语言 计算 机 处 理 的 经 验 ， 
在 俄语 的 自然 语言 理解 系统 中 ， 句 法 分 析 比 语义 分 析 的 比例 大 得 多 ， 在 
英语 的 上 自然 语言 理解 系统 中 ， 句 法 分 析 的 比例 也 比 语义 分 析 的 比例 要 大 
一 些 ， 在 日 语 的 自然 语言 理解 系统 中 ， 句 法 分 析 与 语义 分 析 的 比例 差 不 
多 ， 几 乎 是 一 半 对 一 半 ， 而 在 汉语 的 自然 语言 理解 系统 中 ,语义 分 析 的 
比例 比 句 法 分 析 的 比例 要 大 得 多 。 汉 语 的 自然 语言 理解 系统 ， 如 果 不 给 
语义 分 析 以 足够 的 重视 ， 系 统 的 质量 显然 是 不 会 好 的 。 但 是 ， 目 前 我 国 
对 于 汉语 的 语义 研究 还 很 不 够 ， 汉 语义 系 分 析 、 汉 语 语义 网 络 、 汉 语 框 
架 网 络 的 研究 才刚 刚 起 步 ， 汉 语 的 自然 语言 理解 研究 在 语义 学 方面 还 没 






























































有 十 分 成 熟 的 理论 和 方法 。 


(13) 汉语 的 自然 语言 理解 中 还 要 研究 上 句 和 下 名 的 关系 、 代 词 的 
所 指 和 照应 以 及 知识 背景 等 语 用 学 方面 的 问题 ， 对 于 这 些 问题 ， 在 传统 
的 汉语 语言 学 中 都 是 非常 薄弱 的 环节 ， 几 乎 没有 行 之 有 效 的 研究 成 果 可 
资 借鉴 














(14) 汉语 句子 中 ， 普 过 地 存在 着 “主题 化 ”的 现象 ， 在 语义 上 是 受 
事 、 工 具 、 方 式 、 目 的 、 处 所 、 时 间 的 词 ， 几 乎 都 可 以 提 到 句 首 作为 句 
子 的 主题 ， 这 样 ， 仅 只 根据 词 序 就 很 不 容易 判断 语言 成 分 的 句法 功能 ， 
给 汉语 句子 的 目 动 分 析 造 成 很 大 的 困难 。 











诸如 这 样 的 困难 不 胜 枚 举 ， 由 此 可 见 ， 汉 语 的 自然 语言 理解 是 不 可 
能 一 践 而 就 的 ， 现 在 仅仅 是 到 出 了 第 一 步 ， 需 要 进一步 研究 的 问题 还 很 
多 ， 我 们 应 该 清醒 地 认识 到 这 些 问题 ， 组 织 力 量 进行 攻关 。 








目前 ， 自 然 语 言 理解 的 研究 已 经 显示 出 令 人 鼓舞 的 应 用 前 景 ， 专 家 
系统 、 数 据 库 系统 、 计 算 机 辅助 设计 系统 、 计 算 机 辅助 教学 系统 、 办 公 
室 日 动 化 系统 都 需要 用 自然 语言 作为 人 机 接口 ， 上 共有 篇 革 理解 和 篇 半生 
成 能 力 的 自然 语言 理解 系统 在 知识 工程 、 信 息 检索 、 机 器 翻译 、 自 动 文 
摘 、 电 子 排版 、 语 言 材料 的 目 动 统计 等 领域 ， 也 有 着 广泛 的 用 途 。 有 人 
估计 ， 目 然 语言 处 理 的 软件 销售 额 ， 将 会 大 约 以 每 年 一 倍 的 速度 飞快 增 
长 。 我 们 应 该 加 倍 努 力 ， 促 进 目 然 语言 理解 系统 的 实用 化 和 商品 化 。 











下 面 ， 我 们 来 讨论 目 然 语言 理解 研究 中 的 两 个 新 的 领域 目 动 问答 
系统 和 目 然 语 言 人 机 接口 。 


A=W HIA AS 


“HERA” (question answering, f&EKQAO 讨论 如 何 从 大 规模 真实 
的 联机 文本 中 对 于 指定 的 提问 找 出 正确 回答 的 方法 和 技术 ， 这 是 自然 语 
言 理解 的 一 个 新 的 发 展 趋同 。 


在 20 世 纪 初 年 ， 计 算 机 还 没有 出 现 的 时 候 ， 图 灵 《〈A. Turing) 就 天 
才 地 预见 到 ， 检 验 计算 机 智能 高 低 的 最 好 办 法 是 让 计算 机 来 讲 英 语 和 理 
解 英语 ， 他 提出 了 著名 的 “图 灵 实 验 ” 来 检验 计算 机 智能 的 高 低 。 近 年 来 
迅速 发 展 痢 的 目 动 问答 系统 研究 是 图 灵 实 验 的 生动 实践 ， 反 映 了 目 然 语 
言 处 理 技术 的 长 足 进 步 。 








在 自动 问答 系统 中 ， 计 算 机 要 对 于 用 户 的 提问 给 出 一 套数 量 不 多 的 
准确 回答 ， 在 技术 上 ， 它 更 接近 于 信息 检索 (information retrieval) , 
而 与 传统 的 文献 检索 (document retrieval) 有 较 大 的 区 别 。 


与 信息 抽取 (information extraction) 相 比 ， 自 动 问答 系统 要 回答 的 
提问 可 以 是 任何 提问 ， 而 信息 抽取 只 需要 抽取 事先 已 经 定义 好 的 事件 和 
实体 。 在 开放 领域 的 自动 问答 系统 中 ，， 使 用 有 限 状 态 技术 和 和 领域 知 
识 ， 把 基于 知识 的 提问 处 理 、 新 的 文本 标 引 形式 以 及 依赖 于 经 验方 法 的 
答案 抽取 技术 结合 起 来 ， 这 样 ， 就 把 信息 抽取 技术 大 大 地 回 前 推进 了 一 











sog 


ANE SEIT EA EL SJ] [RAS AS BER AUR ELS REA ZR EC] AS ERA, E 
THAT ROT BATU EJ I [RU BB Et n ES] GE Ie] ABER EL BE TRE FHA, FPL 
论 开放 领域 自动 问答 系统 中 的 答案 提取 方法 。 


LASS ARRAN 


目 动 问答 系统 给 茶 个 提问 提供 简单 而 精确 回答 ， 与 信息 检索 任务 和 
与 信息 提取 任务 极为 不 同 。 目 前 的 信息 检索 系统 能 让 我 们 对 与 提问 切 题 
的 相关 文献 进行 定位 ， 把 从 文本 的 等 级 列表 中 抽取 答案 的 任务 留 给 用 
户 。 在 信息 检索 中 ， 相 关 文 本 的 识别 是 使 用 将 提问 与 文献 集 匹 配 的 方法 
来 实现 的 ， 信 息 检索 系统 并 不 负责 回答 用 户 的 问题 。 信 息 抽 取 与 信息 检 
索 不 同 ， 信 息 抽取 系统 抽取 的 东西 是 用 户 感 兴趣 的 信息 ， 抽 取 的 条 件 是 
言 奶 已 经 存在 于 预先 规定 的 被 称 为 模板 的 目标 表现 形式 中 。 从 总 体 上 ， 
言 恩 抽 取 系 统 在 一 个 与 提取 任务 相关 的 文献 集合 上 操作 。 信 息 抽 取 系 统 
在 完成 抽取 的 任务 时 ， 可 以 成 功 地 组 拼 模板 。 














尽管 在 信息 检索 系统 的 输出 和 信息 抽取 系统 的 输入 之 间 有 重合 现 
象 ， 但 是 把 信息 检索 技术 和 信息 抽取 技术 简单 地 组 合 起 来 ， 直 接应 用 到 
开放 领域 的 上 自动 问答 系统 中 是 行 不 通 的 。 其 原因 在 于 : 第 一 ， 这 种 解决 
办 法 需要 建立 适用 于 所 有 可 能 领域 的 信息 抽取 规则 ， 第 二， 这 种 解雇 办 
法 会 把 可 能 问 及 的 问题 的 类 型 仅仅 局 限 在 信息 抽取 模板 信息 的 形式 范围 
之 内 。 











不 过 ， 目 动 问答 系统 可 以 使 用 信息 检索 的 方法 来 识别 那些 可 能 把 包 
含 问 题 的 答案 的 文献 ， 同 时 使 用 信息 抽取 技术 来 进行 命名 实体 的 辨识 。 








不 管 怎 么 说 ， 成 功 的 自动 问答 系统 要 对 复杂 的 自然 语言 处 理 技 术 进 
行 编码 ， 捕 获 提问 的 语义 ， 并 对 提问 和 候选 答案 进行 词汇 语义 的 合成 。 
由 于 自动 问答 系统 集中 地 使 用 了 大 量 的 句法 、 语 义 和 语 用 的 处 理 方法 ， 
因此 ， 对 目 动 问答 系统 技术 的 关注 势必 促进 自然 语言 处 理 技术 的 发 展 ， 
将 目 然 语言 理解 推 到 研究 与 系统 开发 的 前 沿 。 








目 动 问答 系统 技术 一 定 会 在 今后 的 数 年 内 在 信息 技术 中 发 挥 重 要 的 
作用 。 目 动 问答 系统 的 用 户 可 能 是 随意 的 提问 者 ， 他 们 只 是 问 一 问 简单 
的 具体 问题 ， 也 可 能 是 寻找 具体 产品 特性 和 价格 的 顾客 ;也 可 能 是 正在 
收集 市 场 、 财 经 或 商业 信息 的 调研 分 机 人 员 ; 还 可 能 是 查询 非常 具体 、 
需要 大 量 专门 技术 的 信息 的 专业 信息 分 机 人 员 。 上 所以， 对 回答 提问 的 需 
求 是 很 广泛 的 ， 正 是 由 于 目 动 问答 系统 有 广泛 的 用 户 群 ， 它 的 研究 具有 
广阔 的 应 用 前 景 。 























根据 处 理 提 问 与 答案 的 形式 ， 目 动 问答 系统 可 以 大 致 分 为 定型 的 目 
动 问答 系统 和 开放 领域 的 自动 问答 系统 两 种 。 








在 定型 的 目 动 问答 系统 中 ， 系 统 需要 回答 的 问题 或 者 是 关于 特定 事 
实 的 ， 或 者 是 具有 专业 性 的 。 定 型 的 目 动 问答 系统 对 一 个 新 提问 首先 进 
行 最 佳 匹 配 ， 匹 配对 象 是 已 知 答案 的 预 置 问题 一 个 集合 。 行 有 合适 匹 
配 ， 就 提供 正确 答 采 。 定 型 的 卓 动 问答 系统 的 客户 群众 多 ， 客 户 们 迫切 
希望 依靠 定型 的 自动 问答 系统 ， 对 目 己 特定 的 问题 找 出 正确 的 答案 。 和 定 
型 的 目 动 问答 系统 在 受 限 领 域内 表现 较 好 ， 因 为 在 这 些 领域 中 ， 比 较 容 
易 预 测 问题 的 答案 。 























定型 的 上 自动 问答 系统 中 的 问题 大 致 可 以 分 为 两 类 : 一 类 是 关于 具体 
事实 的 问题 ， 一 类 是 专业 问题 。 





下 面 是 关于 具体 事实 的 问题 的 例子 : 


— —Who was the first American in space? 
(第 一 个 进入 太空 的 美国 人 是 谁 ?) 
— Where is capital airport? 


(首都 机 场 在 哪里 ?) 


When did the Neanderthal man live? 


〈 尼 安 德 特 人 生活 在 什么 时 候 ? ) 





系统 只 要 查询 到 有 关 的 事实 ， 残 可 以 轻而易举 地 回答 这 一 类 的 问 


下 面 是 关于 专业 问题 的 例子 : 


—— —What will the US' response be if Iran closes the Strait of 
Hormuz? 
《如 采 伊 朗 封锁 起 尔 木 北海 号， 美国 将 如 何 回应 ? ) 

一 一 What effects on the price of oil on the international market are 
likely to result from the terrorist attacks on Saudi facilities? 
Cei od T RE PIRE DEBA] c AFERA EB iter" AE 
什么 影响 ? ) 


回答 这 一 类 的 问题 ， 需 要 根据 专业 知识 来 进行 推理 ， 需 要 从 各 种 专 
业 文 献 中 收集 证 据 碎 片 ， 然 后 将 这 些 证 据 碎 片 合并 ， 才 能 形成 最 后 的 答 


案 。 





开放 领域 的 自动 问答 系统 要 对 来 自任 何 领域 的 提问 都 能 够 提供 答 
案 ， 为 了 达到 这 个 目的 ， 需 要 运用 名 法、 语义 、 语 用 等 自然 语言 处 理 手 
段 ， 从 大 量 联机 文献 集合 中 搜寻 并 发 现 对 于 提问 的 答案 。 设 计 这 种 开放 
领域 的 自动 问答 系统 的 难点 在 于 系统 需要 处 理 的 提问 的 宽泛 性 。 提 问 可 
能 是 问 有 具体 的 信息 的 ， 例 如 ， 在 文本 检索 会 议 (TREC) 评估 时 所 提 的 
问题 ， 提 问 也 有 可 能 问 及 复杂 事件 、 事 实 或 情况 。 


























鉴于 开放 领域 的 目 动 问答 系统 具有 提问 的 宽泛 性 ， 仅 对 提问 类 型 分 
类 是 不 够 的 ， 因 为 对 同一 问题 ， 由 于 所 查询 文献 的 情况 不 同 ， 或 者 由 于 





文本 中 有 关 答 案 的 遗 词 造句 的 方法 不 同 ， 答 案 的 提取 有 难 有 易 。 因 此 ， 
我 们 不 对 问题 处 理 扩 术 或 答案 提取 技术 进行 分 类 ， 而 古 对 整个 自动 问答 
系统 进行 分 类 ， 把 开放 领域 的 自动 问答 系统 进一步 细 分 为 如 下 5 类 : 





FR: 能 够 处 理事 实 问 题 的 自动 问答 系统 。 这 类 系统 从 一 个 或 几 
个 文献 的 集合 中 抽取 文本 片段 作为 回答 。 在 通常 的 情况 下 ， 系 统 只 需要 
逐 字 逐 句 地 进行 搜索 ， 在 文献 中 直接 找 出 问题 的 答案 。 











例如 : 


问 : Who is the author of the book THE IRON LADY: A Biography of 
Margaret Thatcher ? 


CHEE CORT: 撒 切 尔 夫 人 传 》 的 作者 ? ) 


答 : THE IRON LADY: A Biography of Margaret Thatcher by Hugo 
Young. 


C CR T: 撒 切 尔 夫 人 人 传 》 的 作者 是 雨 果 : 杨 。) 





第 二 类 : 具有 简单 推理 机 制 的 目 动 问答 系统 。 这 类 系统 需要 在 不 同 
的 文本 片段 中 找 出 答案 ， 并 且 用 简单 的 推理 形式 ， 找 出 问题 与 这 些 答案 
之 间 的 关系 ， 从 而 把 它们 关联 起 来 。 在 这 种 形式 下 ， 答 案 的 发 现 需要 使 
用 更 加 精细 的 本 体 概 念 知识 或 者 更 加 精细 的 语 用 知识 ， 而 答案 的 抽取 则 
需要 在 这 些 知 识 的 基础 上 进行 推理 。 由 于 简单 释义 的 不 足 ， 这 样 的 推理 
通 第 必须 使 用 世界 知识 和 普通 的 常识 。 例 如 ， 在 下 面 的 问答 中 ， 束 使 用 
了 “ 喝 有 毒 饮品 是 死亡 的 一 个 原因 ?这样 的 假设 。 








i]: How did Socrates die? 


CD FS DERE EZ PSI? ) 


答 : Similarly, it was to refute the principle of retaliation that Socrates, 
who was sentenced to death for impiety and the corruption of the city's youth, 
chose to drink the poisonous hemlock, the state's method of inflicting death, 


rather than accepting the escape from prison that his friends had prepared. 


CEU, BOR SAB APT SLA ERM, OA RR i JER PY Ab CFA ZEE 
由 于 他 的 不 敬 行 为 以 及 他 腐蚀 城市 的 青年 ， 他 喝 了 毒 订 ， 这 是 国家 执行 
死刑 的 一 种 方式 ， 而 不 是 他 接受 了 他 的 朋友 们 策划 的 越狱 计划 。) 





在 词 网 (WordNet1.6) 中 ， 名 词 poison〈 毒 ) 的 第 一 个 意思 解释 为 
any substance that causes injury or illness or death of a living organism (“能 
对 生物 体 造成 伤害 、 疾 病 或 死亡 的 任何 物质 *) ， 根 据 这 样 的 因果 链 进 
行 推理 ， 束 为 poisonous hemlock (FFT) 可 能 是 苏 格 拉 压 死 亡 的 原因 提 
供 了 证 据 。 








第 三 类 : 能 够 从 不 同文 献 中 融合 出 答案 的 自动 问答 系统 。 这 种 系统 
的 特征 是 ， 它 们 能 够 提取 散落 在 不 同 的 在 干 个 文献 中 的 局 部 的 信息 ， 然 
后 形成 一 个 融合 的 答案 。 这 样 的 回答 格式 决定 独 这 些 目 动 问答 系统 的 多 
层 复杂 性 。 


例如 : 


问 : Name three countries that banned beef imports from Britain in the 
year 1990? 


(列举 出 1990 年 禁止 从 英国 进口 牛肉 的 3 个 国家 的 名 字 ? ) 


答 : [France, West Germany, Luxembourg, Belgium | 


CRAH, m, FRE, EAR] ) 





这 种 融合 的 开放 领域 自动 问答 系统 需要 具有 更 高 级 的 语义 处 理 能 
和 和 名称 别 名 的 识别 能 力 。 例 如 ， 在 不 同 的 若干 个 文献 中 ， 可 能 会 使 用 
Britain 和 UK 等 不 同 的 名 称 来 称呼 “英国 ”>， 系 统 要 能 够 识别 出 Britain 和 
UK 是 同一 个 国家 ， 才 有 可 能 在 若干 个 不 同 的 文献 中 进行 知识 的 融合 ， 
把 Britain 和 UK 融合 在 一 起 。 








第 四 类 : 可 以 进行 类 比 推理 的 自动 问答 系统 。 这 类 上 自动 问答 系统 的 
特征 是 ， 它 们 具有 类 比 推理 的 能 力 。 在 这 种 自动 问答 系统 中 ， 问 题 的 答 
案 不 会 在 任何 文献 中 明确 表述 出 来 ， 而 是 需要 将 不 同 的 答案 进行 类 比 推 
理 ， 预 测 它们 之 间 的 相似 点 和 不 同 点 。 在 类 比 推理 时 ， 系 统 需 要 将 问题 
分 解 成 提取 证 据 雁 片 的 徊 二 个 小 问题 ， 然 后 使 用 类 比 的 方式 进行 推理 来 
构造 对 于 问题 的 答案 。 

















例如 : 

la]: Is the Fed going to raise interests at their next meeting? 
CFed1] SEXE] KAM EIER? ) 

la]: Is the US out of recession? 
(美国 摆脱 了 经 济 靖 条 吗 ? ) 

问 : Is the airline industry in trouble? 
航空 工业 出 现 了 什么 麻烦 ? ) 


要 回答 上 述 的 问题 需要 从 各 种 文本 中 提取 证 据 的 碎片 ， 然 后 进行 交 


比 推理 ， 构 造 出 问题 的 答案 。 








第 五 类 : 交互 式 自动 问答 系统 。 这 类 上 自动 问答 系统 的 特征 是 能 够 在 
前 期 与 用 户 互动 形成 的 语 境 的 基础 上 提问 题 ， 而 不 是 孤立 地 提问 ， 人 与 
计算 机 之 间 可 以 交互 。 


例如 : 


语 境 中 的 提问 1: Which museum in Florence was damaged by a major 


bomb? 
〈 佛 罗 伦 陕 的 哪 一 个 博物 馆 被 炸弹 破坏 了 ? ) 


答 : On June 20, the Uffizi gallery reopened its doors after the 1993 
bombing. 





《1993 年 爆炸 之 后 ， 在 6 月 20 日 ， 乌 菲 齐 美术 馆 又 重新 开门 了 。 ) 
语 境 中 的 提问 2: On what day did is happen? 
爆炸 是 在 那 一 天 发 生 的 ? ) 
2; (Thursday) (May 27 1993) 
星期四) (1993425 274 ) 
语 境 中 的 提问 3: Which galleries were involved? 
(包括 哪 一 些 画 廊 呢 ?) 


答 : One of the two main wings. 


(两 个 主要 侧面 画廊 当中 的 一 个 。) 

语 境 中 的 提问 4: How many people were killed? 
GUT b AW? ) 

答 : Five people were killed in the explosion. 
(在 爆炸 中 死 了 5 个 人 。) 


在 回答 这 些 问题 的 时 候 ， 计 算 机 需要 在 前 面 已 经 回答 的 问题 的 基础 
上 ， 检 查 提问 前 后 的 语 境 ， 才 有 可 能 做 出 回答 。 


2. 目 动 问 容 系统 的 结构 


一 个 自动 问答 系统 通常 由 三 个 模块 组 成 : 一 个 是 提问 处 理 模 块 
(Question-Processing) ; 一 个 是 文献 处 理 模块 CDocument- 
Processing) ; 一 个 是 答案 的 提取 和 构造 模块 (Answer Extraction and 


Formulation) 。 





在 提问 处 理 模块 中 包含 看 自动 问答 系统 的 很 多 技术 ， 这 些 技术 能 够 
对 提问 加 以 进一步 的 说 明 ， 以 便 在 所 采集 到 的 文献 中 找 出 对 于 有 关 问 题 
的 回答 。 





在 自动 问答 系统 中 ， 目 然 语言 的 提问 不 能 使 用 信息 检索 中 的 关键 词 
和 算 子 来 表示 ， 而 是 使 用 人 类 所 能 理解 的 、 并 且 能 够 由 自动 问答 系统 处 
理 的 一 套 回 有 语义 来 表示 。 





这 套 固 有 语义 也 就 是 回答 应 当归 属 的 语义 类 别 。 例 如 ， 当 问 Who is 
best known for breaking the color line in baseball?《〈 在 打破 职业 棒球 的 肤 
色 界 限 方面 谁 最 有 名 ? ) ， 预 期 的 答案 的 语义 类 型 是 < 人 ”(Person) , 
以 姓名 的 形式 来 表征 ， 例 如 ， 杰 元 : 罗 宾 孙 (Jackie Robinson) 。 








开放 领域 问题 的 相关 段落 检索 是 建立 在 提问 关键 词 的 基础 之 上 的 。 
我 们 使 用 经 验 的 方法 来 提取 提问 关键 词 ， 从 提问 的 语义 形式 中 提取 实 
词 ， 并 优先 考虑 (Ca) IHRE: b) 命名 实体 ; C) 复合 名 词 。 可 
能 的 关键 词 包含 所 有 的 名 词 和 它们 的 形容 词性 修饰 语 ， 还 有 提问 中 的 主 


要 动词 。 











目 然 语 言 文本 中 的 关键 词 会 出 现形 态 变化 、 同 义 表达 、 语 义 变换 等 
变 体形 式 ， 在 上 自动 问答 系统 中 ， 有 必要 对 这 些 关 键 词 进行 必要 的 变换 。 





我 们 可 以 从 语言 学 的 角度 把 关键 词 的 变换 分 为 如 下 三 类 : 


(1) 形态 变换 。 在 目 动 问答 系统 的 提问 表达 式 中 ， 可 以 列举 出 关 
键 词 有 关 的 各 种 形态 变化 的 形式 。 


例如 ， 对 于 问题 “who invented the paper clip?”(“ 谁 发 明了 回 形 
E? ”) 而 言 ， 预 期 的 回答 类 型 是 * 人 ”(Person) ， 而 且 这 个 “人 ”是 动词 
invented (“发 明了 ”) 的 主语 ， 即 词汇 上 名 词 化 了 的 inventor (“发 明 
A”) 。 另 外 ， 由 于 在 文献 中 搜索 时 不 仅 限 于 搜索 关键 词 的 词 干 形式 ， 
还 要 搜索 该 动词 的 所 有 届 折 变化 形式 。 这 样 ， 问 题 就 可 以 使 用 如 下 的 提 
问 表达 式 来 表示 : 











QUERY: [paper AND clip AND (invented OR inventor OR 


invent OR invents) | 


其 中 ，AND 表 示 “ 和 ”，OR 表 示 “ 或 ”，invented 的 形态 变换 形式 还 有 


inventor, invent, invents. 











(2) 词汇 变换 。 词 网 CWordNeO 对 于 大 量 的 很 容易 挖掘 的 语义 
言 恩 都 进行 了 编码 ， 这 样 ， 我 们 就 可 以 根据 词 网 对 关键 词 进行 词汇 变 
换 ， 来 检索 关键 词 的 同义词 和 其 它 语义 相关 项 。 这 种 词汇 变换 提高 了 管 
案 的 召回 率 。 例 如 ， 对 于 问题 *who killed Martin Luther King?”(“ 谁 杀 
了 马丁 :路 德 : 金 ? ”) ， 在 搜索 时 除了 killer (“杀人 者 ”) 之 外 ， 还 搜索 
killer 的 同义词 assassin (“刺客 *”) ， 从 而 提高 自动 问答 系统 的 召回 率 。 
同样 ， 对 于 问题 “How far is the moon?”(“ 月 亮 离 我 们 有 多 远 ? ”) ， 由 
副词 far 在 词 网 (WordNet) 中 被 编码 为 distance〈 距 离 ) 的 属性 特征 ， 


如 果 我 们 把 distance 这 个 名 词 添 加 到 检索 关键 词 中 ， 也 可 以 找到 正确 回 
答 。 


























(3) 语义 变换 。 词 网 CWordNeO 中 还 记录 了 单词 的 上 下 位 关系 
以 及 搭配 ， 在 自动 问答 系统 之 中 ， 我 们 可 以 把 单词 的 上 下 位 关系 或 搭配 
定义 为 关键 词 的 语义 变换 ， 这 样 ， 也 可 以 提高 自动 问答 系统 的 召回 率 。 
例如 ， 对 于 问题 “Where do lobsters like to live?“ (龙虾 喜欢 生活 在 哪 
里 ? ) 。 由 于 在 词 网 中 ， 动 词 like (喜欢 ) 是 动词 prefer 的 上 位 词 ， 它 的 
定义 是 like better〈 更 加 喜欢 ) ， 所 以 ， 提 问 式 可 以 写 为 : 





QUERY: [lobsters AND (like OR prefer) AND live ] 





在 文献 处 理 模 块 中 ， 为 了 处 理 大 范围 的 提问 ， 开 放 和 领域 的 目 动 问 答 
系统 需要 决定 ， 它 要 寻找 什么 样 的 信息 ， 或 者 要 寻找 什么 样 的 预期 的 回 
答 类 型 ， 并 且 还 要 决定 ， 它 到 哪些 文献 中 去 搜寻 这 样 的 回答 。 








由 于 答案 是 靠 文 献 中 的 文本 雁 片 来 呈现 的 ， 所 以 ， 这 样 的 答案 必定 


应 当 包 合 在 能 够 梓 大 多 数 提问 概念 辨识 的 文本 碎片 之 中 。 因 此 ， 可 能 找 
到 最 终 答案 的 文本 碎片 应 当 包 含 最 具 代 表 性 的 问题 的 概念 ， 并 且 包 含 与 
预期 的 回答 类 别 相同 的 文本 概念 。 





现 有 的 检索 技术 还 不 能 很 好 地 模拟 语义 知识 ， 因 此 ， 大 多 数目 动 问 
答 系统 只 是 将 这 样 的 搜索 分 解 成 基于 问题 关键 词 的 检索 以 及 文献 的 过 滤 
机 制 两 个 部 分 ， 使 得 在 文献 中 只 保留 那些 预期 的 答案 类 型 。 


在 答案 的 提取 和 构造 模块 中 ， 要 确定 答案 的 类 型 ， 答 案 的 语义 格式 
该 直接 与 提问 的 主干 相关 联 ， 并 且 在 提问 的 语义 形式 中 具有 最 高 的 连 
M. 





Ei E 


答案 类 型 的 脱 机 分 类 可 以 依靠 大 型 的 词汇 语义 资源 〈 例 如 ， 词 网 ) 
来 建立 。 词 网 (WordNet1.6) 的 数据 库 中 包含 100 000 多 个 英语 的 名 
词 、 动 词 、 形 容 词 和 副词 ， 这 些 词 使 用 “同义词 集 ”(SYNSET) 的 方式 
组 织 起 来 。 在 对 答案 进行 分 类 时 ， 我 们 要 设法 建立 起 问答 系统 中 的 答案 
类 型 与 词 网 中 的 同义词 集 之 间 的 关联 。 











答案 类 型 分 类 的 过 程 可 以 分 三 步 走 : 





第 一 步 : 对 答案 中 的 名 词 或 动词 的 每 一 个 语义 类 别 ， 人 工 选择 出 它 
们 最 具 代 表 性 的 概念 结 点 ， 然 后 把 这 些 概念 结 点 加 到 答案 类 型 分 类 
(Answer Type Taxonomy) 中 。 








第 二 步 : 由 于 预期 的 答案 类 型 通常 是 命名 实体 ， 因 此 ， 我 们 需要 在 
命名 实体 范畴 和 答案 类 型 范畴 之 间 建 立 多 对 多 的 映射 。 如 图 15.2 所 未 : 


CE E UE) 命名 实体 范畴 
person 


Money ss money 
Speed price 


Amount number 
图 1 


5.2 答案 类 型 范畴 和 命名 实体 范畴 之 间 的 多 对 多 映射 








从 图 15.2 中 可 以 看 出 ， 答 案 类 型 范畴 的 Speed， Duration 和 Amount 三 
个 范畴 映射 到 命名 实体 范畴 的 quantity， 形 成 3 对 1 的 映射 ， 而 答案 类 型 
范畴 的 一 个 范畴 Money 上 映射 到 命名 实体 范畴 的 money 和 price 两 个 范畴 ， 
形成 1 对 2 的 上 映射。 可 见 ， 答 守 类 型 范畴 和 命名 实体 范畴 之 间 的 映射 是 多 
对 多 的 。 





第 三 步 : 把 答案 类 型 分 类 体系 (Answer Type Taxonomy) 中 顶端 的 
每 一 个 叶子 结 点 ， 手 工 链接 到 词 网 的 一 个 或 者 多 个 下 属 层 次 的 结 点 上 ; 
这 样 ， 就 可 以 把 提问 中 的 命名 实体 范畴 与 答案 中 的 答案 类 型 范畴 联系 起 
来 ， 构 造 出 相关 的 答案 来 。 





目 动 问答 系统 的 研究 近年 来 取得 突飞猛进 的 成 绩 。 





2011 年 2 月 14 日 至 16 日 ， 美 国 国际 商用 机 器 公司 CBM) 研制 的 超 
级 计算 机 福 天 森 ”(Watson) 与 两 名 人 类 智力 竞赛 高 手 布 拉 德 (Brad) 和 
ATH (Ken) 在 美国 著名 的 智力 竞 答 电 视 节 目 《 和 危险 边缘 ! 》 

(Jeopardy!) 中 进行 竞 答 比赛 。 人 类 选手 布 拉 德 和 肯 : 往 宁 斯 曾经 多 次 
赢得 《危险 边缘 ! 》 的 竞 答 冠军 。 然 而 ， 在 这 次 竞 答 比赛 中 ， 超 级 计算 
机 “ 沃 森 * 却 以 绝对 优势 获得 冠军 ， 战 胜 了 人 类 选手 ， 这 是 计算 机 自动 问 
答 系 统 研究 引起 世界 瞩目 的 重要 成 就 。 











图 15.3 《和 危险 边缘 ! 》: 人 机 竞 答 比 赛 








2 月 14 日 ,“ 沃 条 ?与 布 拉 德 在 首 日 播 出 的 比赛 结束 时 打 成 了 平手 ， 
领先 于 肯 : 詹 宁 斯 。 


2 月 15 日 (第 二 天 ) 播 出 的 比赛 ， 在 30 个 问题 中 ,“ 沃 森 ” 答 对 24 
个 ， 肯 : 詹 宁 斯 和 布 拉 德 分 别 答对 3 个 和 2 个 。“ 沃 森 * 和 人 类 选手 都 未 答 
对 阿根廷 一 家 美术 馆 1987 年 失 饭 的 一 件 藏 品 是 西班牙 国王 菲利普 二 世 肖 
Re 





2 月 16 日 (第 三 天 ) ARAR, (EXUS SL LSE, IRR HR 
优势 战胜 了 人 类 选手 。 


我 们 把 部 分 问题 分 类 列举 如 下 ， 读 者 从 中 可 以 了 解 到 这 次 人 机 竞 答 
比赛 的 水 平 。 


1. 有 天 欧盟 的 问题 CEU, The 
European Union ) 


la]: Each year the EU selects capitals of culture: one of the 2010 cities 





was this Turkish*meeting place of cultures” (每 年 欧盟 都 要 选 出 文化 之 
都 。2010 年 被 选中 的 城市 之 一 就 是 这 个 不 同 的 文化 在 这 里 相遇 的 土耳其 
城市 。 这 是 哪 一 个 城市 ? ) 

cT 


Istanbul 〈 伊 斯 坦 布尔 ) 
[i] : 


The Schengen agreement removes any controls at these between 
most EU neighbors (申根 协议 消除 了 大 部 分 欧盟 国家 之 间 的 关于 什么 东 
西 的 控制 ? ) 

^ 


Ee 


National borders (国家 边界 ) 
问 : 


A controversial EU subsidy program is called CAP, short 
for“*common”this“policy”( 欧 盟 一 个 有 争议 的 补贴 叫做 CAP， 它 
有 ”什么 “政策 ”的 缩写 ? ) 

pg 


日 
是 “ 共 


agricultural (农业) 
问 : 





A 


ET. 


Elected every 5 years, it has 736 members from 7 parties (每 5 年 
选举 一 次 ， 它 有 来 自 7 个 组 织 的 736 名 成 员 。 它 是 什么 ?) 
parliament (议会 ) 


问 : 





As of 2010, Croatia & Macedonia are candidates but this is the 
only former Yugoslav republic in the EU 〈 到 2010， 克 罗 地 亚 和 马其顿 还 
只 是 欧盟 申请 国 ， 而 这 个 国家 是 欧盟 中 唯一 的 前 南斯拉夫 共和 国 ， 它 是 
哪 一 个 国家 ? ) 


M 


E e 


Slovenia (斯 洛 文 尼 亚 ) 


2. ARRERA 


who direct) 


省 的 问题 CActors 


dm 


la]: “Rocky II”, “Rocky III"&*Rocky IIV”(《 拳 击 手 洛 奇 I》 (4 
击 手 治 奇 II》 和 《拳击 手 洛 奇 IV》 的 演员 是 谁 ?) 


答 : Sylvester Stallone ( 西 尔 维 斯 特 :史泰龙 ) 。 


WH: 西 尔 维 斯 特 ' 史 泰 龙 饰 沉 了 拳击 手 洛 奇 ， 分 别 出 品 于 1979、 
1982、1985。 


la]: “Million Dollar Baby”&“Unforgiven”(《 百 万 宝贝 》 和 《不 可 


人 饶恕》 的 演员 是 谁 ? ) 
答 : Clint Eastwood (PRR AFERA) 。 


说 明 ， 克 林 特 : 伊 斯 特 伍德 在 《 百 万 宝贝 》 中 饰演 了 年 纪 老 迈 的 拳 
击 教练 法 兰 基 : 邓 恩 ， 在 《不 可 人 饶恕》 中 饰演 了 重 操 旧 业 的 枪手 威廉 : 芒 
尼 。 


|]: “The Pledge”&“Into the Wild”(《 拆 死 追 缉 令 》 和 《 充 野 牛 
存 》 的 导演 是 谁 ?”) 


答 : Sean Penn (HWA) 。 


说 明 : 《 壹 死 退 缉 令 》 和 《 殉 野 生存 》 是 西 恩 : 潘 最 成 功 的 导演 作 





问 : “The Great Debaters” € 《 激 辩 风云 》 的 主演 是 谁 ? ) 


Z: Denzel Washington 〈 丹 译 尔 : 华 盛 顿 ) 。 


说 明 : 丹 渗 和 尔 ' 华 盛 顿 同时 扮演 了 一 所 全 黑人 学 校 一 一 威 利 大 学 中 
一 位 名 叫 迈 尔 文 : 托 尔 森 的 受 人 爱戴 的 教授 。 


lj: “A Bronx Tale”(《 布 明 殉 斯 的 故事 》 的 导演 是 谁 ? ) 


Z: Robert DeNiro (FARF HEZ) 。 





说 明 : 《 布 明 死 斯 的 故事 》 是 罗伯特 : 德 尼 罗 执 导 的 处 女 作 ， 片 中 
他 同时 扮演 了 美 籍 意大利 人 一 一 公交 车 司机 罗兰 北 : 阿 内 罗 。 





3. 有关 方言 的 问题 (DIALING FOR 
DIALECTS) : 


问 : Sprechen sie Plattdeutsch? If you do, you speak the low variety of 
this language.《〈 你 会 讲 低 地 德语 吗 ? 如 果 你 会 的 话 ， 那 么 你 讲 的 是 这 种 
语言 的 低地 方言 变 体 。) 


答 ， German (德语 ) 。 


说 明 : 这 道 题 是 用 德语 发 问 的 : “Sprechen sie Plattdeutsch?”。 沃 森 
居然 懂得 德语 。 通 过 “低地 德语 ”(Plattdeutsch〉 这 个 单词 ， 沃 森 确 定 了 


这 道 题 要 回答 的 语言 是 德语 。 


|]: Dialects of this language include Wu, Yue & Hakka 〈 这 种 语言 的 
方言 包括 吴语 、 粤 语 和 客家 话 。 这 是 哪 一 种 语言 ? ) 





多 


E. 


Chinese (汉语 ) 


la]: Vedic, dating back at least 4,000 years, is the earliest dialect of this 
classical language of India. (FJ LGE WEJ 48/54 000 年 前 ， 喘 陀 语 是 印度 的 
一 种 古典 语言 的 最 早 的 方言 





这 种 古典 语言 是 什么 ? ) 
答 : Sanskrit CLE) 。 


Hj: 


While Maltese borrows many words from Italian, it developed 


from a dialect of this Semitic language.〈 尽 管 马耳他 语 从 意大利 语 中 借用 
大 量 的 单词 ， 但 是 它 是 从 闪 米 特 语族 的 一 个 方言 发 展 而 来 的 。 这 种 方言 
是 什么 ?) 








AS. 


ete 


Arabic (阿拉 伯 语 ) 
问 : 


Aeolic, spoken in ancient times, was a dialect of this. CŒ t PHR 
讲 的 依 奥 利 亚 语 是 这 种 语言 的 一 种 方言 。 这 种 语言 是 什么 ? ) 


答 : Ancient Greek (〈 古 希腊 语 ) 


4. 关于 突 发 新 闻 的 问题 (BREAKING 
NEWS ) 


问 : 


Before this hotel mogul's elbow broke through it, a Picasso he 


owned was worth $139 million; after, $85 million (i 1985 K F BREST 
惟 坏 了 他 自己 的 毕加索 的 名 画 ， 之 前 这 副 男 值 1.39 亿 美元 ， 之 后 只 值 8 
500 万 美元 了 ? ) 


答 : Steve Wyn 〈 史 提 和 分 :永利 ) 
WH: 史 提 和 分 :永利 是 酒店 大 部 ， 有 ”“ 拉 斯 维 加 斯 之 父 ?之 称 。 


|]: It was 103 degrees in July 2010 & Con Ed's command center in 
this N.Y. borough showed 12,963 megawatts consumed at 1 time. (201047 
月 的 纽约 气温 高 达 103 华 氏 度 ， 即 39.4 摄 氏 度 ， 联 合 爱迪生 公司 在 纽约 
这 个 区 的 指挥 中 心 显 示 耗 电量 达到 了 12 963 百 万 瓦特 。 这 是 哪 一 个 
区 ? ) 


答 : Manhattan 〈( 曼 哈 屯 区 ) 


|]: Senator Obama attended the 2006 groundbreaking for this man's 
memorial, 1/2 mile from Lincoln's. (奥巴马 议员 出 磺 了 2006 年 一 个 国家 纪 
念 碑 的 贷 基 仪式 ， 这 个 纪念 碑 离 林肯 纪念 尝 只 有 半 英 里 ， 这 是 谁 的 纪念 
RR? ) 


答 : Martin Luther King 〈 马 丁 : 路 德 . 金 ) 


问 : Gambler Charles Wells is believed to have inspired the song“The 
Man Who”did this“At Monte Carlo”. 《〈《 赌 徒 得 理 斯 : 韦 尔 斯 被 认为 是 局 发 
了 这 前 歌曲 灵感 的 人 : 歌曲 的 名 字 叫 做 《这 家 伙 在 家 特 卡 洛 did this), 
歌曲 名 字 中 的 did this 完 竟 是 指 什么 行为 呢 ? ) 





答 : Broke the Bank 〈 闻 入 银行 ) 


说 明 :; 这 道 题 对 计算 机 沃 森 来 说 比较 难 ， 它 要 判断 “得 理 斯 : 韦 尔 
斯 ”究竟 是 谁 ， 而 这 个 名 字 是 有 歧义 的 ， 除 了 是 一 个 赌 徒 的 名 字 之 外 ， 
19 世 纪 的 波士顿 市 的 一 位 市 长 也 叫 这 个 名 字 。 提 问 中 的 “ 财 徒 “这 家 
伙 在 蒙特 卡 洛 ? 都 是 比较 好 的 线索 。 沃 条 正确 回答 了 这 题 。 事 实 上 ， 赌 

















徒 查理 斯 : 韦 尔 斯 确实 在 蒙特 卡 洛 冯 进 了 银行 。 而 《这 家 伙 在 蒙特 卡 洛 
问 入 银行 》 是 19 志 纪 在 英国 流行 的 一 首 歌曲 。 





|]: Nearly 10 million YouTubers saw Dave Carroll's clip called 
this“friendly skies"airline*breaks guitars". (接近 一 千 万 YouTube 的 观众 点 
击 了 戴 夫 : 卡 罗 的 视频 厂 段 一 一 “友善 的 天 空 ”" 航 空 公司 “ 控 坏 了 吉他 ”， 这 


古 哪 一 个 航空 公司 ? ) 





答 : United Airlines ( 美 联 航 ) 





说 明 : 美 联 航 控 坏 吉 他 的 事件 兽 被 新 闻 广 泛 报道 “友善 的 天 空 "是 
美 联 航 多 年 的 口号 。 


5. 关于 小 钱 的 问题 (ONE BUCK OR 
LESS ) 


|]: On December 8, 2008 this national newspaper raised its newsstand 
price by 25 cents to $1.〔( 在 2008 年 12 月 8 写 ， 这 份 国家 报纸 将 它 在 报 摊 的 
价钱 从 25 美 分 提高 到 1 美金 。 这 是 哪 一 份 全 国 性 报纸 ? D 





答 : “USA Today”( 《今日 美国 》) 


|]: The USPS cost for mailing this, a minimum of 3 1/2 X 5 inches, is 
28 cents; Wish you were here! (USPS 寄 送 这 个 东西 的 价钱 ， 最 小 的 是 3.5” 
5 英寸 ， 价 格 是 28 美 分 ， 和 希望 你 们 已 经 知道 答案 了 ! 这 是 什么 东西 
Wi?) 


人 


ete 


a post card 《明信片 ) 
|]: In 2002 Eminem signed this rapper to a 7-figure deal, obviously 
worth a lot more than his name implies. (在 2002 年 ， 著 名 的 说 唱歌 手 埃 米 
纳 姆 帮 这 位 说 唱歌 手 签 下 了 一 个 7 位 数 的 合同 ， 合 同 的 价值 显然 比 他 的 
名 字 暗 示 的 价值 更 多 。 这 位 歌手 的 名 字 叫 做 什么 ? ) 
um 


Le 


Five Cents (50:873) 。 





WHH: Five Cents 是 美国 的 一 个 说 唱歌 手 的 名 字 ， 他 的 本 名 柯 带 斯 
往 姆 士 : 杰 克 进 。 这 个 题目 很 难 ， 因 为 很 少 有 人 能 够 想到 Five Cents 居 然 
是 一 个 人 名 ， 命 名 实体 的 识别 确实 不 容易 。 

|]: 99 cents got me a 4-pack of YTTERLIG coasters from this 
Swedish chain. 〈99 美 分 可 以 从 这 家 瑞典 的 连锁 店 买 到 一 包 4 个 的 
YTTERLIG 的 杯 垫 。 这 家 连锁 店 叫 什 么 ? ) 


答 : IKEA (宜家 ) 。 


|]: A 15-ounce V05 Moisture Milks conditioner from this 
manufacturer averages a buck online. (— 1152 F] HSK E ic ml xe RY 
V05 牛 奶 保湿 护 发 素 在 网 上 的 平均 价格 是 1 美金 。 这 是 哪 一 家 制造 
i?) 


ae 
E. 


Alberto 〈 阿 尔 伯 特 ) o 


6. 大 于 非 小 说 类 文学 作品 的 问题 
(NONFICTION) 


la]: In 2010 this former first lady published the memoir“Spoken from 
the Heart". 《在 2010 年 ， 这 位 前 第 一 夫人 发 表 了 回忆 录 《 肺 及 之 言 》， 
她 是 谁 ? ) 

答 : Laura Bush (HARAT) 
|]: This 


book by Michael Lewis 


的 副标题 为 《比赛 进程 》 的 书 是 关于 左边 锋 天 才 迈 元 : 奥 赫 的 。 这 本 书 
的 名 字 是 什么 ? ) 





subtitled“Evolution of a 
Game” focused on left tackle prodigy Michael Oher (这 本 出 自 迈 克 : 刘 易 斯 


“The Blind Side”( 《弱点 》) 


问 : The New Yorkers 1959 review of this said in its brevity & clarity 


it is“unlike most such manuals, a book, as well as a tool". (Æ (HA) WY 
1959 回 顾 中 谈 到 了 这 部 作品 的 简洁 和 清晰 方面 ， 认 为 ， 它 不 像 大 多 数 这 


类 的 手册 ， 而 可 以 看 作 是 一 本 工具 书 。 这 部 作品 的 名 字 叫 什么 ? ) 
A 


“The Elements of Style” ( 《文体 的 要 素 》 ) 
la]: Dave Eggers not-so-modestly titled his memoir“A Heartbreaking 
Work 
的 “伤心 制作 >? ) 


of*this.〈 大 卫 : 艾 格 斯 不 那么 谦虚 地 把 他 的 回忆 录 起 名 为 什么 
Atm 


ete 


Staggering Genius 〈 怪 才 ) 


ia]: HBO's miniseries“John Adams"was based on this author's Pulitzer 


Prize-winning biography (HBOAJiK Us] KARA NE 24390). AeA dix E 
家 的 获 普 利 策 奖 传记 改编 的 。 这 个 作家 是 谁 ? ) 


答 : David McCullough (KE FZ% ) 


7 和 法律 有 关 的 问题 ， 答 案 中 要 包 
FREE” (Legal“E”s) 


IN» 


la]: In English law, it's a title above a gentleman & below a knight; in 
the U.S., it's usually added to the name of an attorney.〈 在 英国 法 律 中 ， 该 
单词 是 一 个 处 于 绅士 之 上 上、 骑士 之 下 的 头衔 ， 在 美国 ， 它 利 被 放 在 律师 
名 字 的 前 面 。 这 个 单词 是 什么 ? ) 


答 : English word“esquire”( 英 文 单词 esquire) 
说 明 : 字典 中 对 esquire 的 解释 是 : “ 放 在 律师 名 字 前 面 的 称谓 ”。 


|]: One definition of this is entering a private place with the intent of 
listening secretly to private conversations. 〈 关 于 该 单词 的 定义 之 一 
是 :“ 进 入 一 个 私人 领地 企图 贸 听 私人 谈话 ?”， 这 个 单词 是 什么 ? ) 


答 : English word eavesdropping (英文 单词 eavesdropping [ 偷 
Wr] >) 


la]: This person is appointed by a testator to carry out the directions & 
requests in his will.《〈 这 个 人 受 立 遗嘱 人 委托 去 执行 遗嘱 中 的 要 求 事项 。 
这 个 人 在 法 律 上 叫 什么 ? ) 





答 : executor (执行 人 ) 


la]: This 2-word phrase means the power to take private property for 
public use; it's ok, as long as there is just compensation. (这 是 由 两 个 单词 
组 成 的 英语 短语 ， 指 的 是 一 种 为 了 公共 用 途 而 取得 私人 物品 ， 并 给 予 适 
当 补 偿 的 法 律 权 利 。 这 个 短语 是 什么 ? ) 


答 : eminent domain (征收 ) 


说 明 : 在 Wikipedia 上 关于 eminent domain 的 解释 是 :“ 征 收 〈 又 称 土 
地 征用 权 ) 系 指 政府 为 促进 物品 利用 、 增 进 公 共和 利益， 基于 政府 公 权 力 
之 作用 ， 依 法 定 程序 ， 取 得 特定 私有 物品 ， 并 给 予 当事者 相当 补偿 之 行 
He” 




















la]: This clause in a union contract says that wages will rise or fall 
depending on a standard such as cost of living. (在 劳工 合同 中 的 有 一 个 条 
ADL: 工资 将 随 着 例如 生活 成 本 这 一 标准 而 上 下 浮动 。 这 个 条 球 叫 做 什 
A? ) 





答 : escalator (Hi EK) 


说 明 : 英语 词典 中 说 : ARRIK Cescalator clause) 是 指 劳 资 协议 
中 有 关 随 生活 费用 或 生活 指数 而 自动 调整 工资 的 条 款 。” 


8. 天 于 罕 什么 的 问题 WHAT TO 
WEAR) 


问 : This plain-weave, sheer fabric made with tightly twisted yarn is 
also used to describe a pie or cake.( 这 种 以 平纹 组 织 交 织 的 注 纱 面料 是 由 


紧密 纱 线 强 挫 在 一 起 而 织 成 的 ， 它 也 用 来 描述 茶 种 派 或 者 皇 糕 。 这 种 面 
料 叫 什么 ? ) 


答 : chiffon ( 雪 纺 ) 


la]: A bit longer than a cocktail dress, one hemmed to end at the shins 
is this beverage“length”.〈 比 燕尾 服 稍微 长 一 点 ， 长 度 有 从 底部 到 小 腿 肚 
的 距离 这 样 长 的 衣服 部 件 ， 它 也 是 一 种 饮料 的 名 称 。 这 种 衣服 部 件 叫做 
TA T) 


7€. tea (茶叶 ) 


la]: Also the name of a rope for leading cattle, this women's backless 
top has a strap that loops around the neck.【〈 一 种 用 来 替 拉 牲畜 的 绳子 的 名 
称 ， 它 也 用 于 女人 的 露 背 上 装 ， 通 过 绳子 缠绕 在 脖子 上 。 它 叫做 什 
A? ) 


Æ.: halter 〈 坦 肩 露 背 上 装 ) 


|]: If you're wearing Wellingtons at Wimbledon, you're wearing these. 
CURIE AUR ES FMR, IA, Wie FE ARE, EAN 
AMA) 


答 : rainboots or galoshes (WARE E) 


问 : Throw on an outfit from the*Marc by”this designer line (2 E— 
整套 的 来 自 “Marc ” “by” 这 个 的 设计 师 的 品牌 的 服装 。 这 个 品牌 叫做 什 
hen.) 


4€. Marc Jacobs (马克 : 雅 各 布 斯 ) 


9. 天 于 美国 地 理 别 名 的 问题 (U.S. 
GEOGRAPHIC NICKNAMES) 


|]: Cape Hatteras is known as this cemetery synonym“of the 
Atlantic”( 这 个 名 称 是 坟墓 的 同义词 ， 哈 特 拉 斯 角 也 被 认为 是 “大 西洋 的 
这 个 名 称 ”。 这 个 名 称 是 什么 ? ) 








答 : A graveyard XÆ ) 


la]: Appropriately enough, this New York metropolis is“Bison City”. 
《这 个 纽约 的 大 都 会 是 “野牛 之 城 ?， 它 的 别名 是 什么 ? ) 


答 : Buffalo (水 牛 城 ) 


|]: This town is known as*Sun City"& its downtown is“Glitter 
Gulch”. (这 个 城市 被 认为 是 “太阳 城 "， 而 且 它 的 中 心 城区 是 “ 金 沟 银 
蜜 ”。 这 个 城市 叫 什么 ? ) 

A， 


答 : Las Vegas 〈 拉 斯 维 加 斯 ) 


|]: It's known as both“The Steel City”&“The Iron City”.( 它 被 认为 
是 “ 钢 之 城 ? 和 * 铁 之 城 ?。 它 是 哪 一 个 城市 ? ) 


答 : Pittsburgh (VLZ ÉE) 


|]: “The Coyote State"is an unofficial nickname of this 75,885- 
square-mile state. 〈“ 郊 狼 之 州 ?是 这 个 75 885P FR BAIN I] AE EE 77 We 
称 ， 它 叫 什 么 ? ) 


答 : South Dakota (ARI) 。 


10. XT RAI (MAGICAL 
MOUSE-TERY TOUR) 


la]: Itchy (the mouse) & Scratchy (the cat) starred in“Skinless in 
Seattle"on a show within this Fox show. (Itchy (35) Scratchy (J ) 
是 电视 节目 《西雅图 没有 皮肤 》 的 明星 ， 这 个 电视 节目 在 福 死 斯 公司 的 
什么 频道 播放 ? ) 





答 : “The Simpsons" ( (GÉZR— 2X) D o 


问 : In 1939's cartoon*The Pointer", this guy got a new, more pear- 
shaped body & pupils were added to his eyes.《〈 在 1939 年 的 动画 片 《指挥 
家 》 中 ， 这 个 朋友 有 了 一 个 新 的 、 梨 型 的 身体 而 且 它 眼睛 中 加 进 了 了 瞳 
孔 。 这 个 朋友 是 什么 ? ) 


答 : Mickey Mouse (KÆ M) 。 


尽管 “天 和 森 ?存储 了 大 量 的 百科 全 书 和 其 他 信息 ， 但 《危险 边缘 ! 》 
的 问题 十 分 复杂 ， 并 不 会 让 “大森 ?轻易 地 找到 答案 。 目 动 问答 比 搜索 引 
擎 复杂 得 多 。 计 算 机 的 搜索 引擎 没 法 直接 回答 这 些 问 题 ， 搜 索引 擎 只 能 
给 出 符合 搜索 关键 词 的 成 干 上 万 个 似是而非 的 可 能 答案 ， 而 在 自动 回答 
问题 时 ，“ 沃 森 ” 要 通过 各 种 不 同 的 算法 对 所 有 的 这 些 候 选 答案 取得 更 多 
的 证 据 文 持 ， 再 根据 各 种 证 据 的 文 持 强 度 对 每 个 候选 答案 计算 出 它们 各 
目的 置信 度 ， 最 后 根据 置信 上 度 来 判断 是 否 癌 用 户 提供 置信 和 度 最 高 的 答 























案 ， 并 把 这 个 答案 当 作 是 唯一 正确 的 答案 。 


显而易见 ， 这 样 的 搜索 、 计 算 和 判断 过 程 是 极其 复杂 的 ， 对 于 《和 危 
险 边 缘 ! 》 提 出 的 任何 一 个 问题 ， 都 需要 动用 几 生 个 处 理 需 的 超级 计算 
机 来 处 理 。“ 沃 森 ” 需 要 掌握 大 量 的 知识 ， 并 在 相关 的 信息 以 及 不 相关 的 
言 轧 中 反复 权衡 ， 发 现 线索 。 对 计算 机 来 说， 这 和 是 一 个 巨大 的 挑战 。 因 
为 人 类 可 以 在 瞬间 辨别 出 事物 之 间 的 联系 ， 但 是 计算 机 却 必 须 并行 地 考 
虚 所 有 事情 ， 从 而 得 出 结论 。 














在 这 次 人 机 大 战 中 ,“ 沃 森 ? 胜 利 了 。 “ 沃 条 ?最终 获得 100 万 美元 奖 
金 ， 肯 : 詹 宁 斯 和 布 拉 德 分 获 30 万 美元 和 20 万 美元 奖金 。“ 沃 森 ” 的 奖金 
将 由 它 的 开发 者 IBM 公 司 全 数 捐 给 慈善 机 构 。 往 宁 斯 和 布 拉 特 说 ， 他 们 


会 捐 出 一 半 奖 金 














“ 沃 森 ” 的 胜利 意味 看 IBM 公 司 已 经 掌握 了 对 人 类 信息 需求 和 问题 给 
予 更 加 准确 而 完善 地 处 理 的 技术 能 力 ， 并 预见 到 了 这 个 领域 存在 巨大 商 
机 。 这 项 成 果 将 被 广泛 应 用 于 多 个 领域 ， 例 如， 帮助 医生 更 快 、 更 准确 
地 进行 医疗 诊断 ， 帮 助 药 物 学 家 研究 潜在 的 药物 交互 作用 ， 和 帮助 律师 和 
法 官 寻 找 采 例 ， 帮 助 经 济 学 家 在 金融 领域 实现 “假设 ”的 场景 分 析 并 巡 从 
法 规 行 事 ， 儿 助 商 业 公司 培养 更 加 精明 的 销售 人 员 ， 等 等 。 








“ 沃 森 ” 的 胜利 归根 结 底 是 人 类 智 草 的 胜利 ， 因 为 “ 沃 森 ” 是 由 人 类 制 
造 出 来 的 ， 它 的 智慧 是 人 类 赋予 的 。“ 沃 森 ” 的 出 现 ， 改 变 了 在 此 之 前 的 
简单 的 人 机 关系 ， 并 将 市 来 一 个 轨 新 的 人 机 合作 时 代 。 





AM BABS ADEA 


使 用 自然 语言 建立 的 人 与 计算 机 之 间 的 交互 接口 系统 叫做 自然 语言 
人 机 接口 (Natural Language Interaction, f(8jEANLD 。 这 样 的 目 然 语言 
人 机 接口 可 以 把 用 户 使 用 口头 的 自然 语言 或 书面 的 自然 语言 提出 的 问题 
转化 为 计算 机 可 以 处 理 的 形式 。 





本 节 首 先 介 绍 上 自然 语言 人 机 接口 的 基本 组 成 部 分 、 意 义 表达 语言 
(meaning representation language, fH#KMRL) ~ [HE] X E yl x fe 
(paraphraser) 、 反 馈 生 成 软件 (response generator) 。 然 后 介绍 口语 对 

TH AZ (spoken dialogue systems, f&jfKSDSs) ， 分 别 介 绍 口语 对 话 系统 
的 单词 识别 软件 、 任 务 模型 、 用 户 模型 、 会 话 模型 、 对 话 管理 软件 、 语 
音 合 成 软件 。 


目 然 语 言 人 机 接口 这 个 术语 用 来 指 用 户 用 目 然 语言 来 陈述 对 于 计算 
机 的 请 求 。 用 户 的 请 求 可 以 是 口语 ， 也 可 以 是 书面 语 。 这 样 的 请 求 可 以 
古 独 立 的 句子 ， 也 可 以 是 对 话 的 一 部 分 ， 我 们 使 用 不 同 水 平 的 语言 处 理 
技术 对 这 样 的 请 求 进行 分 析 ， 使 之 被 计算 机 理解 。 


在 自然 语言 的 计算 机 处 理 中 ， 自 然 语 言 人 机 接口 从 20 世 纪 60 年 代 晚 
期 以 来 已 经 进行 了 广泛 的 研究 ， 近 年 来 更 多 地 关注 口语 对 话 系 统 
(Spoken Dialogue Systems， 简 称 SDSs)〉 的 研究 。 在 口语 对 话 系 统 中 ， 
用 户 的 请 求 是 口语 ， 它 们 被 看 做 是 对 话 的 一 个 部 分 。 口 语 对 话 系 统 更 着 
重 于 从 总 体 上 进行 对 话 分 析 ， 并 关注 对 话 与 用 户 意 图 的 联系 。 











本 节 介绍 自然 语言 人 机 接口 系统 的 中 心 概念 ， 着 重 讨论 自然 语言 人 





机 接口 和 口语 对 话 系统 。 


目 然 语言 人 机 接口 使 用 数据 库 提 问 的 方式 来 进行 工作 。 典 型 的 目 然 
语言 人 机 接口 数据 库 可 以 使 用 类 型 化 的 单 句 来 提问 ， 系 统 根据 提问 从 数 
据 库 中 抽取 信息 ， 作 为 对 于 提问 的 反应 。 请 看 下 面 的 例子 。 


用 户 的 请 求 : Which customers have bought SmartCopiers? 
(哪些 客户 购买 了 SmartCopiers? ) 


系统 的 反应 : ABA France, QuickFly, Power Inc. 


用 户 的 请 求 : How many SmartCopiers has each one bought? 
(每 家 客户 购买 的 SmartCopiers 是 多 少 ? ) 


系统 的 反应 : ABA France 15 
QuickFly 12 


Power Inc. 18 


用 户 的 请 求 : Have any of them also bought QuickCams? 
(这 些 客户 中 还 有 哪 一 家 也 购买 了 QuickCams? ) 


系统 的 反应 : Power Inc. 


在 自然 语言 人 机 接口 中 ， 用 户 的 请 求 使 用 “意义 表达 语 
言 ” (Meaning Representation Language， 人 简称 MRL ) 来 表示 。 例 如 ， 


Which customers have bought SmartCopiers? 
〈《 哪 一 家 客户 购买 了 SmartCopier? ) 


这 个 用 户 请 求 被 表示 为 : 


? x; customer name (x,, xX» ) 人 product name (x, , SmartCopiers ) 


/\ purchase (x, , x4 ) 


Hp, *? ”是 表示 疑问 的 逻辑 量词 ， 用 于 说 明 变 量 的 值 ，? 35 
customer name (x, , x; ) 表示 x, 是 客户 xi 的 名 字 ; product name (xs ， 
SmartCopiers) 表示 SmartCopiers 是 xs 的 产品 名 称 ; purchase (x, , x4 ) 
ARX, 购买 了 产品 xs 。 为 了 节省 空间 ， 这 个 用 户 请 求 中 的 时 态 
(tense) 和 体 (aspect) 都 省 略 了 。 








在 自然 语言 人 机 接口 中 经 常 对 提问 的 句子 进行 “ 同 义 互 
Vil” (paraphrase) ， 对 于 一 个 提问 提供 出 知 干 个 意义 相同 或 者 相近 的 名 
子 ， 这 有 助 于 用 户 理解 他 们 的 请 求 是 否 已 经 被 计算 机 正确 地 解释 了 。 当 
用 户 举 棋 不 定 的 时 候 ， 计 算 机 就 把 知 干 个 同 义 互 训 的 句子 自动 地 呈现 出 
来 ， 用 户 可 以 从 中 选择 自己 认为 最 合理 的 一 个 。 


当 用 户 的 要 求 不 能 得 到 满足 时 ， 目 然 语 言 人 机 接口 会 使 用 “反馈 
成 软件 ”(response generator) 给 用 户 提 供 合 情 合理 的 反馈 。 例 如 ， 


用 户 的 请 求 : Has any customer bought more QuickCams than ABA 


France? 


(有 任何 客户 已 经 购买 了 比 ABAFrance 更 多 的 QuickCams 吗 ? ) 


系统 的 反应 : ABA France hasn't bought any Quickcams. 
CABAFrance 还 没有 购买 任何 的 QuickCams。 ) 


用 户 的 请 求 : Has any customer bought more SmarterCopiers than 
ABA France? 


(有 任何 客户 已 经 购买 了 比 ABAFrance 更 多 的 SmartCopier 吗 ? ) 


系统 的 反应 : Yes, Power Inc. has bought 18. 
Gel, Power Inc. 已 经 购买 了 18 个 。) 


在 上 面 的 第 一 个 问题 中 ， 系 统 检测 到 “ABAFrance 已 经 购买 了 
QuickCams” 这 个 错误 的 假定 ， 并 且 给 用 户 生成 了 一 个 合情合理 的 反馈 警 
T: “ABA _ France 还 没有 购买 任何 的 QuickCams”。 对 于 上 面 的 第 二 个 问 
el, ARAMAIC “Yes” (“EAN”) 来 回应 ， 而 且 还 进一步 给 用 户 提 
供 了 附加 的 信息 : “Power Inc. 已 经 购买 了 18 个 ”。 


口语 对 话 系统 输入 的 是 口语 ， 口 语 通常 是 不 合 语法 的 ， 不 完整 的 ， 
甚至 是 字面 意义 不 可 理解 的 。 这 是 口语 的 “特异 性 ”(idiosyncrasy) 。 











下 面 是 口语 对 话 系 统 的 一 段 对 话 ， 方 括号 中 的 类 语 是 系统 事实 上 已 
经 认 出 来 的 英语 单词 ， 星 号 ” ”表示 还 没有 被 认 出 来 一 个 或 多 个 的 单 
pP 

用 户 的 请 求 : ErmHelloErmWhatD’ You- 
l'dLikeSomeInformationOnaFlightaFlighttoAthens 


[ *hello*what*you*information*flight to Aachen ] 
系统 的 反应 : You want to fly to Aachen? 


用 户 的 请 求 : 
EhNoNotAthensAthensIsaidAachenWhereIsAachenAnyway 


[ *no no nottingham aachen athens*aachen what is athens airways ] 


系统 的 反应 : You want to fly to Athens? 


用 户 的 请 求 : YeahFinallyYouGotItIwantToLeaveFromGa- 
FromLondonGatwick 


[ yes*gatwick i want *leave from*from London gatwick | 
系统 的 反应 : You want to fly from London Gatwick? 
上 面 的 这 段 对 话说 明 计 算 机 在 分 析 原 并 原味 的 口头 语言 时 会 有 很 多 
困难 。 在 这 种 原 汁 原味 的 对 话 中 ， 没 有 停顿 来 分 离 单 词 ， 也 没有 过 号 来 


分 离 句 子 。 我 们 使 用 大 写字 和 母 来 记录 只 是 为 了 帮助 读者 识别 有 关 的 单 
词 ， 这 样 的 大 写字 母 在 口头 语言 中 是 不 存在 的 。 


























在 这 种 原 汁 原味 的 口语 句子 中 ， 经 党 出 现 如 下 的 现象 : 


音 的 迟疑 : 例如 ，“erm”。 


m 
"Bi 


m 整个 单词 或 部 分 单词 出 现 重 复 : Pld, “a flight a flight, Ga- 


Gatwick”. 


B HX: 开始 说 话 时 说 错 了 立刻 进行 目 我 修复 。 例 如 ，“what 
dyou-Td like, from Ga-from London Gatwick") . 
m 出 除 刚 说 出 的 单词 : PQ, “not Aachen, Athens”. 
Ab Ed, 


m ERRE: 例如 ， 人 机 口语 对 话 的 同时 ， 还 有 其 他 人 在 谈话 。 


m 伴随 出 现 的 语言 外 现象 例如， 口语 对 话 时 伴随 出 现 的 咳嗽 声 或 
轻微 的 笑 声 。 


这 些 都 反映 出 口语 的 特异 性 。 








在 口语 对 话 系 统 中 ， 输 入 口语 信号 首先 是 由 单词 识别 系统 来 处 理 


的 ， 这 个 系统 试图 辨别 口头 的 词语 ， 这 些 词语 是 建立 在 系统 词 库 中 的 单 
词 和 由 其 他 的 组 件 所 提供 的 预测 的 基础 上 的 。 输 出 的 识别 结果 在 模糊 的 
情况 下 是 一 个 词汇 链 。 下 面 是 用 户 说 出 的 句子 和 单词 识别 后 得 到 的 相应 
的 词汇 链 的 例子 : 


HPE aim. 


ErmHelloErmWhatD'Y ou-I'dLikeSomeInformationOnaFlighta- 
FlighttoAthens 


输出 的 词汇 链 : 
[ *hello*what*you*information*flight*flight to athens | 

这 样 的 词汇 链 传达 到 分 解 器 ， 产 生 如 下 一 个 可 能 的 框架 结构 : 
| Lgreeting: hello] , [ dest-airport: athens] | 

这 个 框架 结构 表示 “问候 : Hello” 和 “飞行 目的 地 : Athens" 


然后 进入 “任务 模型 *。 任 务 模型 要 说 明 用 户 想 完成 的 任务 是 什么 ， 
对 于 每 个 任务 ， 特 别 需 要 给 出 具体 的 应 用 参数 。 例 如 ， 在 一 个 关于 航班 
任务 的 口语 对 话 系 统 中 ， 任 务 模型 可 能 包括 下 列 内 容 : 


m 搜索 : [dep-date，dep-airport，dest-airport] (HAHAHA, WRAL 
场 ， 飞 行 目 的 地 ) ， 
[ dep-time-range, arr-time-range] 〈 出 发 时 间 范 围 ， 到 达 时 间 范 围 ) ， 
[ flight-no, dep-time, arr-time] 《航班 号 ， 出 发 时 间 ， 到 达 时 间 ) 。 


mil: [flight-no, dep-date, surname, initials] , [ ] , [status] (fi 


HES, HEIE, REHE, RAH, IRU) 。 


mj: [flight-no, dep-date, surname, initials] , [ ] , [status] (fi 
PES, HAMA), RKE, RAA, il) 。 


这 个 任务 模型 列举 了 三 个 可 能 的 航班 任务 : 


搜索 一 个 合适 的 航班 : 出 发 日 期 ， 出 发 机 场 ， 飞 行 目的 地 ;出 发 时 
间 范 围 ， 到 达 时 间 范 围 ， 航 班 号 ， 出 发 时 间 ， 到 达 时 间 。 


在 该 航班 上 订购 一 个 座位 ， 航班 号 ， 出 发 日 期 ， 乘 客 姓 ， 乘 客 名 ， 
状况 。 


删除 订购 : 航班 号 ， 出 发 日 期 ， 乘 客 姓 ， 乘 客 名 ， 状 况 。 


对 于 搜索 的 任务 ， 必 须 有 具体 说 明 出 发 日 期 ， 出 发 机 场 ， 以 及 目的 地 
机 场 ， 并 且 乘 客 对 于 起 飞 或 到 达 时 间 可 以 在 一 定 范围 内 进行 选择 。 





对 于 订购 的 任务 ， 必 须 具 体 说 明 航 班 号 ， 确 切 的 起 飞 和 到 达 时 间 。 


人 ee 
乘客 名 ， 并 且 答 案 将 报告 订 票 和 删除 的 状况 。 





在 口语 对 话 系统 中 还 应 当 建立 “用 户 模型 >。 用 户 模型 提供 关于 用 户 
的 兴趣 以 及 系统 承担 的 当前 用 户 的 信念 和 目标 。 在 口语 对 话 时 ， 用 户 模 
型 应 当 避 免 报 道 那 些 用 户 早 已 知 道 的 信息 ， 辩 别 那些 值得 报道 的 信息 ， 
并 且 提 供 关 于 下 一 个 用 户 话 语 的 预测 。 

















语 对 话 系统 中 还 要 建立 “会 话 模型 ”。 会 话 模型 的 主要 功能 之 一 是 
i: o o EE BAN s 





行为 ， 以 及 相关 的 应 用 参数 。 


在 下 面 的 对 话 中 ， 每 一 个 句子 的 币 头 标记 “ ”后 面 都 注 明 了 会 话 历 
史 ， 记 录 着 会 话 行为 和 相关 的 应 用 参数 。 





系统 的 提问 : On which day do you want to fly? 
《你 想 哪 一 天 起 飞 呢 ?) 


+ A: [request: dep-date | 
会 话 行为 是 “询问 出 发 的 时 间 ”) 


用 户 的 回答 : This Friday. 
《星期 五 ) 


二 用 户 : [assert: [dep-date: 25.05.2001] ] 
(会 话 行为 是 “确认 出 发 的 时 间 是 25.05.2001“) 


系统 的 提问 : Where do you want to fly to? 
《你 想 飞 到 哪里 呢 ? ) 


系统 : request: dest-airport | 
(会 话 行 为 是 :“ 想 询问 目的 地 机 场 ”) 


用 户 的 回答 : Athens. 
CHE HE) 


+i: Lassert:  [dest-airport: athens] | 
会 话 行为 是 : “确认 目的 地 是 雅典 ”) 


以 上 类 型 的 会 话 历 史 是 很 有 用 的 ， 当 用 户 说 出 的 句子 出 现 省 略 时 


〈 例 如， 用户 没有 说 出 目的 地 *Athens”) ， 计 算 机 可 以 根据 以 前 会 话 交 
流 的 历史 推测 出 句子 的 意义 。 











除了 会 话 历史 之 外 ， 会 话 模型 还 应 当 研究 在 特定 的 应 用 领域 之 内 的 
典型 的 会 话 结构 。 例 如 ， 下 面 是 一 个 关于 在 特定 的 航班 订 票 领域 的 会 话 
结构 : 










request 
departure 
time 












request 
arrival time 


图 15.4 ”会 话 结构 





这 个 会 话 结 构 使 用 有 限 状态 自动 机 (Finite State Automate， 简 称 
FSA) 来 表示 。 熟 悉 有 限 状 态 上 自动 机 的 读者 不 难 理解 这 个 会 话 结构 。 


会 话 时 ， 首 先是 “greeting”( 打 招呼 ) ， 接 痢 判 断 是 不 是 “request 
destination”《〈 问 航班 的 方向 ) ， 如 果 回 答 “yes”( 是 ) ， 则 继续 “request 
departure”( 问 关于 出 发 的 问题 )， 如 果 回 答 “no”( 不 是 ) ， 则 
说 “sorry”( 对 不 起 ) ， 转 而 “request arrival time”( 问 到 达 时 间 ) ， 等 
人 


下 面 关 于 航班 订 票 的 会 话 反 映 了 这 个 会 话 结构 的 内 容 。 


系统 : This is the Flight Info System. Name your destination airport. 
(这 是 航班 信息 系统 。 请 说 出 你 的 目的 地 机 场 。) 


用 户 : Athens. 
(雅典 。) 


系统 : Which airport are you flying from? 
《你 从 哪 一 个 机 场 起 用? ) 


FAR: Gatwick. 
(Gatwick. ) 


系统 : Sorry, I didn't understand. Which airport are you flying from? 
《对 不 起 ， 我 不 懂 。 你 从 哪 一 个 机 场 起 飞 ? ) 


用 户 : London Gatwick. 
(伦敦 的 Gatwich 机 场 。) 


系统 : On which day do you want to fly? 
《你 想 在 哪 一 天 起 飞 ? ) 


用 户 : Next Sunday. 
《下 星期 天 。) 


系统 : What time do you want to leave? 
(你 想 在 什么 时 间 离 开 呢 ? ) 


用 户 : Say, around 10 am. 
《大 约 上 午 10 点 。) 


系统 : The following two flight match your requirements ... 
《下 面 两 个 航班 符合 你 的 要 求 .……… ) 


系统 : Thanks for ringing. 
(谢谢 来 电 。) 


图 15.4 中 有 限 状 态 目 动机 弧 上 的 “yes”no” 等 标签 可 以 通过 上 述 的 会 
话 来 检验 ，OR 表 示 在 “request departure time”( 询 问 起 飞 时 间 ) 
或 “request arrival time”( 询 问 到 达 时 间 ) 之 间 进 行 选择 。 有 兴趣 的 读者 
可 以 顺 着 会 话 的 顺序 授 历 这 个 有 限 状 态 上 自动 机 ， 这 样 ， 你 就 可 以 更 加 清 
楚 地 理解 这 个 会 话 结 构 的 功能 。 





会 话 管理 软件 是 口语 对 话 系统 的 核心 组 件 ， 它 管理 由 外 界 的 客观 世 
界 、 用 户 和 会 话 模型 所 提供 的 信息 。 功 能 如 下 : 


m 确定 在 当前 语 境 中 用 户 所 说 的 句子 的 框架 结构 ; 





m 决定 系统 是 否 应 该 产生 一 个 信息 ; 


m 决定 系统 是 否 应 该 执行 一 些 行 为 〈 例 如， 收回 信息 ) 以 满足 茶 些 
潜在 应 用 的 需求 ; 


m 负责 各 种 组 件 之 间 的 协调 和 交流 。 











会 话 管理 软件 输出 的 信息 可 以 采用 固定 格式 的 文本 来 表述 ， 也 可 以 
附加 语调 标志 ， 这 些 信 息 直 接 被 传送 到 口语 合成 器 ， 最 后 输出 合成 的 语 


wr. 
H o 











从 总 体 上 来 说 ， 用 户 在 会 话 过 程 中 是 处 于 主导 地 位 的 ， 但 是 ， 用 户 
说 出 的 口语 有 时 还 需要 系统 进行 核实 。 例 如 ， 在 下 面 的 航班 订 票 的 会 话 


中 ， 乘 客 己 经 说 明了 他 的 航班 的 出 发 机 场 和 目的 地 ， 不 过 ， 由 于 
Athens (雅典 ， 在 希腊 ) 和 Aachen 〈 亚 琛 ， 在 德国 ) 的 读音 相近 ， 系 统 
需要 进一步 核实 乘客 的 目的 地 是 Athens (雅典 ) ， 而 不 是 Aachen CE 
A. 


系统 : Hello. This is your Flight Info System. 
《你 好 。 这 是 航班 信息 系统 。) 


用 户 : Hi, I'd like to find out about an evening flight from Gatwick to 


Athens please. 
WR, dE4EdE— M Gatwick 21 HL THE LATE.) 


系统 : Did you say Aachen? 
《你 说 的 是 亚 琛 吗 ? ) 


用 户 : What? No, no, Athens. 
(什么 ? 不， 不 ， 是 雅典 。) 


系统 : On which day do you want to fly to Athens? 
(你 想 在 哪 一 天 飞 到 雅典 去 呢 ?) 





这 种 类 型 的 系统 允许 在 用 户 和 系统 之 间 共 享 茶 些 信息 ， 从 而 提高 对 
话 的 准确 性 。 





确认 策略 的 选择 也 是 很 重要 的 。 在 没有 误解 的 情况 下 ， 使 用 暗含 的 
确认 信息 是 可 取 的 。 例 如 ， 


用 户 : Td like to find out about a flight from Gatwick to Athens please. 
(我 想 找 一 个 从 Gatwick 到 雅典 的 航班 。) 


系统 : On which day do you want to fly from London Gatwick to 
Athens? 
(你 想 在 哪 一 天 从 伦敦 Gatwick 机 场 飞 到 雅典 去 ? ) 


系统 在 Gatwick 之 前 加 上 了 暗含 的 信息 “伦敦 "， 使 得 用 户 提出 的 要 
求 更 加 明确 。 这 样 的 对 话 比 明确 地 请 求 提供 一 个 参数 来 确认 更 加 自然 。 


下 面 是 关于 确认 策略 的 更 多 的 例子 : 


用 户 : Td like to find out about a flight from Gatwick to Athens please. 
(我 想 找 一 个 从 Gatwick 到 雅典 的 航班 。) 


系统 : Do you want to fly from London Gatwick? 
(你 想 从 伦敦 Gatwick 机 场 起 飞 吗 ? ) 


用 户 : Yes. 
(是 的 。) 


系统 : Do you want to go to Athens? 
《你 想 飞 到 雅典 去 吗 ? ) 


用 户 : Yes, yes. 
GE, 7H. ) 


系统 : On which day do you want to fly? 
《你 想 在 哪 一 天 起 飞 呢 ? ) 


口语 对 话 系 统 这 样 多 次 地 进行 确认 ， 可 以 更 加 清楚 地 明确 用 户 的 意 
图 ， 是 大 有 好 处 的 。 有 时 候 ， 根 本 不 进行 确认 是 很 危险 的 ， 因 为 系统 可 
能 误解 一 些 东西 ， 并 且 有 可 能 根据 错误 信息 去 执行 一 些 欧 唐 任 务 。 














此 ， 在 口语 对 话 系 统 中 让 用 户 明确 地 确认 他 们 的 意图 是 一 个 可 取 的 办 





在 未 来 的 二 十 年 里 ， 口 语 对 话 系 统 在 现实 生活 中 的 应 用 将 变 得 越 来 
越 普 裔 。 我 们 还 需要 进一步 进行 口语 对 话 系 统 的 研究 。 为 了 提高 口语 对 
话 系统 的 效能 ， 我 们 需要 研制 精确 度 更 高 的 口语 识别 软件 ， 研 制 在 噪音 
环境 中 的 口语 对 话 系统 ， 研 制 可 重复 使 用 的 口语 对 话 系统 的 各 种 组 件 和 
系统 的 构建 工具 ， 设 计 功能 更 强 的 用 户 模型 ， 开 发 灵活 的 会 话 模型 和 会 
话 技术 。 
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术语 记录 的 是 科学 技术 的 概念 ， 它 是 人 类 科学 知识 在 自然 语言 中 的 


+ A 
结晶 。 





术语 是 语言 词汇 的 一 部 分 ， 因 为 其 学 术 性 、 专 业 性 较 强 ， 它 们 并 不 
属于 全 民 共 同 语 的 基本 词汇 ， 一 个 人 也 不 可 能 掌握 全 部 的 术语 。 据 英国 
语言 学 家 统计 ， 智 力 平 第 的 英国 人 一 般 只 能 掌握 数 千 个 单词 ， 他 们 所 能 
理解 的 单词 数 很 难 超过 一 万 个 ， 就 是 智力 出 众 的 英国 人 掌握 的 词汇 量 也 
不 会 超过 十 万 个 单词 ， 而 现代 英语 的 单词 数量 已 远 远 地 超 过 了 一 百 万 
人 个， 因此， 就 很 有 必要 对 语言 中 这 大 量 的 词汇 进行 搜集 、 记 录 、 整 理 和 
控制 。 在 这 大 量 的 词汇 中 ， 术 语 与 现代 科学 和 技术 的 联系 是 最 密切 的 ， 
它 的 搜集 、 记 录 、 整 理 和 控制 工作 就 显得 更 加 迫切 和 重要 了 。 






































本 章 介 绍 术 语 数 据 库 和 最 近 兴 起 的 计算 术语 学 ， 它 们 都 是 自然 语言 
处 理 在 术语 研究 中 的 重要 的 应 用 领域 。 


第 一 和 术语 数据 库 


存储 在 计算 机 中 的 记录 概念 和 术语 的 自动 化 电子 词典 ， 叫 做 术语 数 
据 库 (terminological database) 。 


术语 数据 库 产生 主要 有 三 个 方面 的 原因 。 


早期 的 术语 工作 基本 上 是 编写 各 种 专业 性 的 术语 词典 ， 这 些 术 语词 
典 有 单 语 的 ， 也 有 双语 的 ， 完 全 靠 手工 来 编排 。 由 于 术语 数量 日 与 俱 
增 ， 科 学 技术 中 所 创造 的 概念 体系 越 来 越 复杂 ， 传 统 的 用 手工 方式 作 术 
语 卡片 并 按 字 母 顺 序 排 列 的 存储 方法 已 经 远 远 满足 不 了 实际 的 需要 ， 必 
须 革 新 存储 技术 ， 这 是 术语 数据 库 产生 的 首要 原因 。 








其 次 ， 由 于 术语 数量 太 大 ， 必 须 寻 找 新 的 途径 ， 以 缩短 查找 术语 信 
恩 的 时 间 ， 这 有 是 术语 数据 库 产 生 的 第 二 个 原因 。 目 前 ， 国 际 标准 化 组 织 
GASO) 已 经 发 布 的 国际 术语 标准 大 约 有 300 个 ， 正 在 制定 的 国际 术语 标 
准 草案 (DIS) 和 国际 术语 标准 建议 草案 (DP) KAIG2007, KEG 
经 发 布 的 国家 术语 标准 有 600 多 个 ， 包 含 术语 条 目 10 万 多 条 ， 在 许多 非 
术语 标准 中 ， 对 于 该 标准 所 用 的 术语 也 有 说 明和 定义 ， 如 果 把 这 些 非 术 
语 标准 中 所 收 的 术语 也 算 进 去 ， 我 国 己 经 发 布 的 各 种 术语 条 目 还 要 多 得 
多 。 对 于 数量 如 此 庞大 的 术语 ， 如 果 采 用 传统 的 手工 方式 来 管理 ， 几 乎 
古 不 可 能 的 。 在 这 种 情况 下 ， 建 立 术 语 数 据 库 就 势 在 必 行 了 。 

















再 其 次 ， 传 统 的 词典 编纂 方法 费时 而 又 费力 ， 术 语词 典 的 出 版 周期 
很 长 ， 不 便于 经 党 地 更 新 ， 许 多 术语 词典 刚刚 问世 ， 就 已 经 过 时 或 不 完 
全 了 ， 为 了 提高 术语 词典 的 编 棍 效率 和 缩短 术语 词典 的 出 版 周期 ， 也 有 





必要 采用 计算 机 技术 ， 这 是 术语 数据 库 产 生 的 第 三 个 原因 。 


利用 电子 计算 机 建立 术语 数据 库 ， 不 但 能 够 以 极 快 的 速度 来 处 理 概 
念 体系 极为 复杂 的 术语 数据 ， 而 且 能 够 在 计算 机 的 存储 介质 上 存储 大 量 
的 术语 数据 ， 这 束 从 根本 上 改革 了 传统 的 术语 词典 编 肾 技术 ， 实 现 了 术 
语词 典 编 繁 的 现代 化 。 














世界 上 第 一 个 术语 数据 库 ， 是 由 巴克 拉克 (J.A. Bachrach) 于 1963 
年 在 卢森堡 建立 的 ， 叫 做 DICAUTOM. 这 个 术语 数据 库 是 为 了 协助 欧洲 
煤 钢 联营 最 高 机 构 的 翻译 工作 者 进行 翻译 之 用 ， 由 于 种 种 原因 ， 几 年 以 
后 这 个 术语 数据 库 被 放弃 了 。 但 是 ， 借 助 于 电子 计算 机 来 处 理 大 量 术语 
数据 的 思想 却 流传 了 下 来 。 








术语 数据 库 中 的 术语 主要 有 三 个 来 源 。 








第 一 个 来 源 是 来 自 术语 学 家 们 从 各 个 领域 的 科技 文献 中 分 析 得 来 的 
术语 ， 这 些 术语 在 进入 术语 数据 库 之 前 ， 必 须 按照 术语 学 原则 进行 前 处 
理 和 预 加 工 。 








第 二 个 来 源 是 来 目 其 它 的 术语 数据 库 中 的 术语 数据 ， 为 了 在 不 同 的 
术语 数据 库 之 间 进 行 数据 的 传输 和 转换 ， 各 个 术语 数据 库 之 间 必 须 具有 
相 容 性 。 








第 三 个 来 源 是 来 日 术 语 数 据 库 的 用 户 ， 如 翻译 工作 者 、 技 术 编 辑 、 
科技 专家 、 专 业 语 言 教师 等 。 他 们 可 以 给 术语 数据 库 经 第 提供 在 工作 中 
接触 到 的 各 种 新 术语 ， 更 新 术语 数据 库 的 内 容 。 








每 个 术语 数据 库 都 应 该 具备 三 种 功能 :输入 功能 、 存 储 功能 和 输出 


输入 功能 又 包括 三 方面 的 内 容 : 术语 的 采集 、 术 语 的 校对 、 术 语 的 
计算 机 输入 。 采 集 术语 时 ， 要 把 每 个 术语 编写 在 一 张 术语 采集 卡片 上 ; 
校对 先 由 人 工 进行 ， 把 所 有 的 卡片 都 校对 好 ， 然 后 再 在 计算 机 上 进行 ; 
术语 的 计算 机 输入 ， 则 要 根据 程序 系统 的 编制 格式 ， 对 术语 进行 分 类 处 
理 ， 并 把 它们 输入 到 计算 机 的 存储 介质 上 。 随 看 计算 机 拉 术 的 进展 ， 术 
语 的 采集 和 术语 的 校对 现在 都 可 以 使 用 计算 机 来 完成 了 。 








存储 功能 要 求 在 计算 机 上 作出 三 种 文件 : 作业 文件 、 转 移 文 件 和 主 
文件 。 作 业 文 件 存储 那些 质量 未 经 核实 的 术语 数据 ， 这 些 数据 还 没有 按 
照 该 数据 库 的 使 用 方式 进行 过 彻底 的 处 理 ， 转 移 文件 存 储 从 其 它 术 语 数 
据 库 转移 过 来 的 术语 数据 ， 主 文件 则 全 面 地 存储 符合 该 数据 库 使 用 方式 
要 求 的 术语 数据 ， 这 时 ， 每 一 条 术语 的 各 个 数据 项 都 必须 是 规格 化 的 。 





输出 功能 要 能 够 提供 给 用 户 两 个 方面 的 术语 数据 : 1. 针对 某 一 个 术 
语 ， 输 出 它 的 有 关 数 据 项 ，2. 针对 东 一 个 学 科 领 域 ， 输 出 该 学 科 的 全 部 
或 部 分 术语 数据 。 








术语 数据 库 可 按 不 同 的 标准 来 分 类 。 

按 术语 数据 库 的 目的 来 分 ， 可 分 为 : 

1. 为 科技 交流 而 建立 的 术语 数据 库 ; 

2. 为 术语 推广 而 建立 的 术语 数 库 ; 

3. 为 术语 标准 化 或 术语 协调 而 建立 的 术语 数据 库 。 
按 术语 数据 库 的 用 户 来 分 ， 可 分 为 : 

1. 为 翻译 工作 者 而 建立 的 术语 数据 库 ; 


2. 为 术语 学 家 或 词汇 学 家 而 建立 的 术语 数据 库 ; 
3. 为 技术 编辑 而 建立 的 术语 数据 库 ; 

4. 为 科技 领域 专家 而 建立 的 术语 数据 库 ; 

5. 为 专业 语言 教师 而 建立 的 术语 数据 库 ; 

6. 为 一 般 公众 而 建立 的 术语 数据 库 。 





按 对 语言 的 态度 来 分 ， 可 分 为 : 
1. 起 规范 作用 的 术语 数据 库 ( 仅 只 搜集 标准 术语 ); 


2. 提供 数据 用 的 术语 数据 库 《〈 搜 集 未 经 标准 化 的 、 带 有 对 术语 的 各 
种 评价 的 术语 数据 〉; 


3. 纯 描 述 性 的 术语 数据 库 〈 搜 集 各 种 术语 资料 、 不 加 任何 评价 ) 。 
按 资料 的 组 织 方式 来 分 ， 可 分 为 : 

1. 以 文献 为 基础 的 术语 数据 库 ; 

2. 以 术语 为 基础 的 术语 数据 库 。 

按 术 语 的 使 用 方式 来 分 ， 可 分 为 : 


1. 直接 使 用 的 术语 数据 库 ( 如 通过 计算 机 、 电 传 打字 机 、 互 联网 、 
电话 、 移 动 通信 设备 来 直接 联机 使 用 ) ; 


2. 间接 使 用 的 术语 数据 库 《〈 如 通过 高 速 打印 机 、 目 动 印刷 机 打印 或 
印刷 之 后 来 间接 脱 机 使 用 ) 。 





从 计算 技术 的 角度 来 看 ， 对 于 术语 数据 库 应 该 有 如 下 的 要 求 : 


一 一 术语 数据 库 的 硬件 ， 应 该 选择 较 先进 的 计算 机 种 ， 能 较 容易 地 
实现 主机 与 外 围 设备 的 配套 ， 系 统 兼容 性 好 ， 软 件 文 撑 能 力 强 ， 应 具有 
多 用 户 和 通信 功能 ， 应 有 足够 的 和 内存 和 外 存 ， 数 据 处 理 的 速度 、 系 统 的 
输入 输出 能 力 应 充分 满足 业务 数量 和 用 户 数 量 的 需要 ， 应 具有 较 强 的 可 
扩充 性 ， 能 比较 方便 地 实现 现场 升级 。 








一 一 术语 数据 库 的 软件 ， 主 要 包括 系统 软件 、 文 字 处 理 软 件 、 数 据 
库 管理 软件 、 通 信 控 制 软件 等 ， 这 些 软件 应 该 完整 、 配 套 ， 形 成 系统 ， 
应 该 还 具有 较 好 的 灵活 性 和 可 移植 性 ， 对 运行 环境 有 较 强 的 适应 能 
应 该 有 对 用 户 友好 的 人 机 界面 ， 数 据 库 管理 软件 应 能 方便 地 进行 数据 的 
存 取 、 检 索 、 补 充 、 修 改 和 删除 。 

















一 一 术语 数据 库 的 通信 系统 ， 应 能 实现 先进 的 计算 机 网 络 通信 ， 支 
持 开 放 系统 互 连 ， 能 实现 经 由 网 络 的 数据 库存 取 。 





一 一 术语 数据 库 中 的 数据 ， 应 该 正确 无 误 ， 具 有 一 致 性 、 完 整 性 ， 
数据 不 仅 应 独立 于 计算 机 系统 ， 而 且 还 应 独立 于 存 贮 方法 和 存 取 方 式 ， 
随 着 学 科 的 发 展 ， 可 以 及 时 地 用 新 的 术语 数据 来 更 新 旧 的 术语 数据 。 








一 一 与 汉语 有 关 的 术语 数据 库 还 应 该 具有 和 们 繁体 汉字 信息 处 理 能 
力 ， 根 据 实际 的 需要 ， 还 应 该 能 处 理 多 语言 符号 、 特 殊 符 号 、 图 形 和 公 
式 。 











一 一 大 型 的 术语 数据 库 还 应 该 有 较 强 的 联网 能 力 ， 以 便 与 其 他 的 术 
语 数 据 库 实现 资源 共 至 。 


20 世 纪 60 年 代 末 期 以 来 ， 各 国 开始 建立 术语 数据 库 。 据 统计 ，1989 


年 ， 世 界 上 已 经 建立 的 术语 数据 库 共 有 74 人 个， 其中， 国际 组 织 8 个 ， 多 
国 集团 2 个 ， 地 区 性 组 织 2 个 ， 德 国 8 个 ， 法 国 6 个 ， 和 荷兰 6 个 ， 日 本 4 个 ， 
美国 3 个 ， 加 拿 大 3 个 ， 西 班 牙 3 个 ， 芬 兰 3 个 ， 比 利 时 3 个 ， 挪 威 2 个 ， 英 
国 2 个 ， 前 苏联 2 个 ， 中 国 、 瑞 典 、 丹 麦 、 沙 特 阿拉 伯 、 和 希腊 、 墨 西 哥 、 
委内瑞拉 、 冰 岛 、 捷 元、 突尼斯 、 印 度 、 南 非 、 以 色 列 、 澳 大 利 亚 、 奥 
地 利 、 巴 西 等 国 各 1 个 。 欧 洲 的 术语 数据 库 占 了 世界 术语 数据 库 总 量 的 
70%， 亚 洲 术 语 数 据 库 仅 占 世界 术语 数据 库 总 量 的 10%， 其 中 半数 都 在 
日 本 。 可 见 ， 术 语 数 据 库 大 部 分 都 建立 在 发 达 国 家 ， 这 是 因为 发 达 国 家 
对 信息 传递 的 数量 、 质 量 和 速度 有 很 高 的 要 求 ， 对 术语 数据 库 的 要 求 十 
分 迫切 。 当 然 ， 这 些 发 达 国 家 也 有 足够 的 经 济 和 技术 力量 来 开发 高 质量 
的 术语 数据 库 。 











目前 ， 世 界 上 主要 的 术语 数据 库 有 如 下 几 个 : LEXIS, TEAM, 
EURODICAUTOM, NORMATERM,  TERMDOK, TERMNOQ， 
TERMIUM，GLOT，DANTERM，ASITO 等 。 其 中 ， 有 些 术语 数据 库 已 
经 科研 和 生产 中 发 挥 了 很 好 的 作用 ， 取 得 了 经 济 效 益 。 


下 面 ， 我 们 简要 介绍 这 些 术语 数据 库 。 


1.LEXIS 术 语 数据 库 


这 是 联邦 德国 国防 部 的 术语 数据 库 ， 于 1959 年 开始 研制 ，1966 年 全 
部 投入 运转 。 该 术语 库 中 所 收 的 术语 ， 主 要 由 德国 国防 部 翻译 服务 处 所 
供 ， 也 有 一 部 分 术语 是 为 翻译 有 关 核 潜艇 的 技术 文献 而 搜集 的 。 








该 库 的 术语 工作 与 德国 国防 部 翻译 服务 处 的 配合 极为 密切 ， 术 语 的 





增加 和 更 新 都 必须 首先 考虑 翻译 服务 处 的 需要 ， 每 条 新 术语 部 要 经 过 国 
防 部 内 部 的 一 个 术语 审定 委员 会 的 认可 ， 才 能 够 收入 LEXIS。 








LEXIS 系 统 的 维护 是 面 同 用户 的 ， 由 翻译 人 员 提 出 需要 输入 的 新 术 
语 ， 最 多 不 得 超过 两 个 星期 就 得 处 理 完毕 。 


为 了 不 影响 系统 的 研究 和 改进 ，LEXIS 系 统一 分 为 二 : 一 个 是 为 用 
户 服务 的 ， 在 运行 中 ， 数 据 不 能 随便 改变 ， 另 一 个 是 供 研 究 用 的 ， 数 据 
可 以 改变 ， 等 系统 更 新 之 后 ， 再 提供 用 户 使 用 。 由 于 供用 户 用 的 系统 与 
供 研究 用 的 系统 严格 分 开 ， 整 个 LEXIS 的 工作 有 条 不 率 。 


LEXIS 现 有 工作 人 员 约 40 人 ， 其 中 包括 20 个 术语 词汇 学 家 和 5 个 计 
算 机 专家 。 术 语 的 年 平均 生产 量 是 35 000 条 ， 平 均 每 个 工作 人 员 每 天 生 
产 16 条 ， 每 一 条 术语 至 少 要 注 明 德 文 和 另 一 种 外 文 〈 如 英文 ) ， 每 条 术 
语 实际 上 是 德语 -外 语 的 术语 对 。 








由 于 德国 国防 部 的 大 多 数 翻译 工作 是 从 英语 译 为 德语 ， 全 部 术语 记 
录 中 都 包含 德语 。 例 如 ， 当 需要 从 英语 查询 法 语 术语 时 ， 必 须 通过 德语 
术语 为 媒介 。LEXIS 术 语 库 中 的 语言 ， 现 有 英语 、 德 语 、 法 语 、 俄 语 、 
波兰 语 、 和 荷兰 语 和 意大利 语 等 七 种 。 


所 收 术 语 的 专业 领域 有 国防 、 航 空 、 航 天 、 天 文 、 数 据 处 理 、 电 子 
学 、 工 业 管 理 、 机 械 工程 、 物 理 、 造 船 和 电子 通讯 等 。 术 语 库 中 的 术语 
定期 地 进行 新 的 增补 。 


LEXIS 系 统 在 两 台 IBM 中 型 计算 机 上 运行 : 一 台 是 IBM 3033， 供 联 
机 处 理 之 用 ， 一 台 是 IBM 3031， 供 批 处 理 之 用 。 这 两 台 计 算 机 都 安置 在 
德国 国防 部 计算 中 心 。 输 入 数据 时 ， 必 须 由 打字 员 按 一 定 的 格式 键入 信 
上 。 输 出 时 ， 除 一 般 由 打印 机 打印 之 外 ， 还 可 采用 磁盘 输出 、 缩 微 平 片 





输出 及 COM 设 备 (计算 机 缩微 胶片 输出 绘图 仪 )， 输 出 质量 较 高 。 


除了 出 售 缩微 平 记 有 少许 的 收入 之 外 ，LEXIS 的 经 费 全 是 由 德国 政 
府 提供 的 ， 它 是 目前 在 德国 完全 由 政府 给 予 财政 文 持 的 唯一 的 术语 数据 
库 。 





为 了 改进 输入 技术 ，LEXIS 目 前 正在 研究 一 个 文章 自动 阅读 系统 ， 
该 系统 可 对 和 欲 译 的 文章 目 动 生成 一 个 术语 表 存 入 术语 数据 库 中 。 


2. TEAM 术 语 数据 库 








这 是 德国 西门 子 公 司 的 术语 数据 库 ， 建 于 1976 年 。 西 门 子 公司 在 蔡 
尼 黑 (Miinchen) 设 有 外 语 服务 处 ， 在 多 年 的 翻译 实践 中 ， 他 们 积累 了 
数量 相当 可 观 的 多 种 语言 的 拉 术 术语 ， 再 加 上 西门 子 公 司 在 计算 机 的 便 
件 和 软件 技术 上 有 很 大 的 优势 ， 当 把 这 些 技术 术语 在 先进 的 计算 技术 的 
文 持 下 建成 术语 数据 库 之 后 ， 便 显示 出 了 术语 数据 库 的 优越 性 ， 大 大 地 
提高 了 西门 子 公 司 外 语 服务 处 的 工作 效率 ， 同 时 ， 还 把 多 年 精心 积累 的 
技术 术语 变 成 了 可 以 获得 经 济 效益 的 术语 库 产 品 。 

















根据 用 户 的 不 同情 况 ，TEAM 术 语 数 据 库 除了 为 西门 子 公司 的 各 个 
部 门 服务 之 外 ， 还 可 为 其 它 单 位 提供 服务 ， 并 为 出 版 部 门 进行 数据 处 
HE 





TEAM 术 语 库 现 有 工作 人 员 约 30 人 ， 其 中 ， 有 12 个 术语 词汇 学 家 ， 
8 个 计算 机 工程 师 ， 术 语 的 输入 工作 大 部 分 是 临时 雇用 打字 员 利 用 光学 
字符 阅读 专用 设备 OCR-B 来 进行 的 。 术 语 的 年 平均 生产 量 只 是 10 000 
条 ， 而 从 理论 上 说 ， 平 均 每 个 术语 学 家 一 年 可 加 工 3 ”333 条 术语 ， 为 了 














克服 人 浮 于 事 的 现象 ，TEAM 术 语 库 的 工作 人 员 有 必要 进行 精简 。 


TEAM 术 语 库 现 有 术语 1 000 000 条 ， 可 分 成 若干 个 彼此 独立 的 子 库 
(pool) ， 所 有 的 术语 条 目 都 包含 德语 术语 并 至 少 包含 一 种 等 价 的 外 语 
术语 。 但 是 ， 术 语 的 条 目 数 并 不 等 于 术语 数据 库 中 所 储存 的 概念 数 ， 因 
为 在 各 个 子 库 之 间 ， 存 在 着 大 量 重 复 的 术语 ， 各 个 单独 的 子 库 可 以 按 自 
己 的 计划 各 自发 展 ， 而 每 个 翻译 单位 还 可 以 单独 建立 自己 的 子 库 ， 甚 至 
西门 子 公 司 之 外 的 一 些 用 户 ， 如 荷兰 外 交 部 翻译 服务 处 、 和 荷兰 飞利浦 公 
司 、 联 邦 德国 标准 化 委员 会 以 及 一 些 词典 出 版 商 ， 也 可 以 建立 自己 的 子 
库 ， 并 将 这 些 子 库 纳入 TEAM 系 统 之 中 ， 这 样 ，TEAM 系 统 就 显得 非常 
庞杂 ， 但 也 因此 而 获得 了 更 多 的 用 户 。TEAM 术 语 数 据 库 中 的 语言 ， 现 
有 有 德语、 英语、 法语、 西班牙 语 、 俄 语 、 秆 萄 牙 语 、 蓓 兰 语 、 阿 拉 伯 语 
等 八 种 。 























所 收 术 语 的 专业 主要 是 电子 学 、 数 据 处 理 以 及 跟 西 门 子 公司 的 主要 
商业 活动 有 关 的 领域 。 


TEAM 系 统 建 在 SIEMENS 7000 计 算 机 上 ， 输 入 方式 可 采用 OCR-B 
专用 光学 字符 阅读 设备 、 软 磁盘 、VDU 视 频 显 示 器 〈 配 有 30 个 
VDU) 、 文 件 编辑 器 等 多 种 。 输 出 方式 也 很 多 样 ， 可 采用 打印 机 、 
COM 计 算 机 缩微 胶片 输出 绘图 仪 、 照 相 排版 、 缩 微 胶 卷 、 磁 带 以 及 
VDU 视 频 显 示 器 等 。 所 有 的 输出 方式 都 配 有 相应 的 设备 。 由 于 有 西门 子 
公司 在 技术 上 作为 后 盾 ， 其 设备 之 先进 ， 是 其 它 的 术语 数据 库 系统 望 尘 
莫 及 的 。 











TEAM 术 语 库 的 用 户主 要 是 西门 子 公 司 的 翻译 人 员 及 技术 文献 的 编 
辑 人 员 ， 除 此 之 外 ， 和 荷兰 外 交 部 翻译 服务 处 、 答 兰 飞 利 浦 公司 以 及 生产 
缩微 胶卷 的 翻译 部 门 都 可 以 使 用 TEAM 术 语 数据 库 的 设备 ， 联 邦 德国 标 





准 化 委员 会 、 同 西门 子 公司 有 关系 的 出 版 商 还 可 以 使 用 TEAM 系 统 的 软 
件 和 硬件 。 





TEAM 术 语 数据 库 是 西门 子 公 司 外 语 服务 处 建立 的 ， 它 得 到 了 德国 
政府 的 支持 。 由 于 西门 子 公 司 之 外 的 用 户 都 为 TEAM 术 语 库 提供 的 服务 
XIR, TEAME EME CAHN T o 





近年 来 ， 西 门 子 公 司 开 始 研 究 机 器 翻译 ， 他 们 打算 把 TEAM 术 语 数 
据 库 与 机 器 翻译 联系 起 来 ， 利 用 TEAM 术 语 数 据 库 ， 采 用 人 机 交互 的 方 
式 来 查询 机 需 翻 译 中 翻译 不 了 的 生 亿 术语， 这样， 就 可 以 把 术语 数据 库 
中 术语 的 存 取 与 机 器 翻译 中 的 文本 目 动 分 析 技 术 结 合 起 来 。 





3.EURODICAUTOM 术 语 数 据 库 





这 是 欧洲 共同 体 的 术语 数据 库 。 这 个 术语 数据 库 是 在 前 有 的 
DICAUTOM 及 EUROTERMS 这 两 个 术语 数据 库 的 基础 上 建立 起 来 的 ， 
于 1976 年 开始 研制 。 


EURODICAUTOM 术 语 数 据 库 的 研制 目的 有 三 个 : 


第 一 ， 给 欧洲 共同 体 总 部 的 翻译 人 员 提 供 一 个 方便 、 灵 活 的 动态 联 
机 系统 ， 使 他 们 能 迅速 地 查询 到 有 关 的 新 术语 。 





第 二 ， 把 欧洲 共同 体 各 国 的 术语 工作 集中 起 来 ， 避 人 免 重复 劳动 ， 使 
得 这 个 系统 能 够 为 欧洲 共同 体 各 翻译 部 门 的 其 他 翻译 人 员 使 用 。 











第 三 ， 在 一 定 程度 上 ， 把 欧洲 共同 体 各 种 官方 语言 的 官方 文件 的 术 


语 使 用 协调 和 统一 起 来 。 


EURODICAUTOM 术 语 库 现 有 12 个 术语 词汇 学 家 ， 他 们 几乎 都 上 全 
日 班 。 此 外 ， 还 有 自由 职业 的 翻译 人 员 平均 6 人 〉 和 打字 员 (平均 4 
AO 作 辅 助 性 工作 ， 程 序 设计 由 翻译 服务 部 门 之 外 的 人 来 进行 。 


EURODICAUTOM 术 语 库 的 语言 ， 现 有 英语 、 法 语 、 意 大 利 语 、 和 荷 
兰 语 、 和 丹麦 语 、 西 班 牙 语 和 葡萄 牙 语 ， 目 前 正 设法 把 使 用 非 拉 丁字 母 的 
希腊 语 也 包括 进来 。 该 系统 有 250 000 条 普通 术语 和 75 000 条 缩写 术语 ， 
术语 的 更 新 速度 是 每 年 10 000 条 。 


所 收 术 语 的 专业 领域 十 分 广泛 ， 几 乎 涉及 了 各 个 技术 学 科 及 自然 科 
学 基础 学 科 。 这 是 因为 欧洲 共同 体 是 一 个 国际 组 织 ， 它 的 翻译 领域 较 
多 ， 翻 译 内 容 较 杂 ， 与 单一 国家 的 语言 情况 不 一 样 。 

EURODICTAUTOM 术 语 库 原来 建 在 IBM 370/158 计 算 机 上 ， 现 已 转 


到 SIEMENS 7760 计 算 机 上 运行 ， 外 围 设备 有 大 量 的 VDU 视 频 显 示 器 。 


EURODICTAUTOM 术 语 库 的 用 户主 要 是 欧洲 共同 体 总 部 的 翻译 人 
， 共 同体 的 其 它 单位 和 官方 机 构 亦 可 对 术语 数据 库 提 出 询问 ， 据 报 
1982 年 间 ， 该 系统 每 天 回答 638 个 用 户 提 问 。 





(mk "un 


为 了 供 欧洲 共同 体 各 国 使 用 这 个 术语 数据 库 ，EURODICAUTOM 术 
语 库 还 通过 EURONET 通 讯 网 络 ， 为 共同 体 的 两 百 多 个 向 
EURODICTAUTOM 登 记过 的 单位 提供 咨询 服务 。 此 外 ， 该 系统 还 与 联 
合 国教 科 文 组 织 CUNESCO) 、 经 济 合作 与 开发 组 织 COECDO 、 世 界 
卫生 组 织 (WHO) 、 法 国 的 NORMATERM 术 语 数据 库 以 及 瑞典 TNC 技 
术 术 语 中 心 等 建立 了 密切 的 联系 ， 它 还 将 一 部 分 软件 移植 到 墨西哥 的 术 
语文 献 中心 去 。 








EURODICTAUTOM 术 语 库 由 欧洲 共同 体 提供 财政 支持 。 


4. NORMATERM 术 语 数 据 库 


这 是 法 国标 准 化 组 织 AFNOR 的 术语 数据 库 。 开 发 这 个 术语 数据 库 
的 目的 就 是 为 了 控制 和 存 取 AFNOR 日 益 增 加 的 术语 。 由 于 标准 化 的 需 
要 ， 只 有 那些 AFNOR 认 可 的 标准 术语 才能 收入 NORMATERM 术 语 数 据 
EF., 


HAT, AFNORJFZX KEARI JAIRE EENORMATERM, Aig 
数据 库 的 工作 由 AFNOR 情 报 文 献 服务 处 兼 管 。 这 个 情报 文献 服务 处 现 
有 13 个 情报 文献 学 家 、2 个 图 书馆 员 、1 个 非 全 日 制 的 术语 词汇 学 家 、2 
个 全 日 制 的 翻译 人 员 ，20 个 非 全 日 制 的 翻译 人 员 。 他 们 除了 管理 
NORMATERM 术 语 数 据 库 之 外 ， 还 得 做 情报 文献 方面 的 工作 。 





由 于 NORMATERM 术 语 库 只 收 标准 术语 ， 它 对 于 所 收 的 术语 的 控 
制 是 十 分 严格 的 ， 每 一 条 术语 都 要 求 绝 对 可 靠 。 术 语 库 现存 23 000 个 概 
念 ， 以 法 语 为 形式 来 存储 ， 这 些 概 念 都 根据 AFNOR 和 ISO 的 有 关 术 语 标 
准 作 过 认真 的 审查 和 仔细 的 校 核 。AFNOR 还 打算 把 国际 电工 词汇 也 收 
入 到 这 个 术语 库 中 ， 因 为 这 也 是 非常 可 靠 的 标准 化 术语 。 由 于 AFNOR 
对 于 入 库 术 语 的 审查 非常 之 严格 ， 术 语 的 年 平均 产量 只 有 1 000 条 。 




















NORMATERM 术 语 库 建 在 法 国标 准 化 组 织 计算 中 心 的 IRIS 45 计 算 
机 上 ， 这 人 台 计 算 机 主要 是 用 来 管理 AFNOR 的 文献 的 ， 用 于 术语 数据 库 
的 联机 工作 时 间 每 天 只 有 1 小 时 。 输 入 采用 读 卡 机 ， 输 出 采用 宽 行 打印 
机 、COM 设 备 和 VDU 视 频 显示 器 。 





NORMATERM 术 语 库 除 了 用 来 作 AFNOR 的 术语 标准 化 工作 之 外 ， 
还 要 为 AFNOR 的 情报 文献 学 家 作 主 题词 表 的 工作 ， 因 而 AFNOR 是 其 主 
要 用 户 。 男 外 ， 工 业界 的 一 些 赞 助 者 亦 来 NORMATERM 存 取 数 据 。 


NORMATERM 术 语 数 据 库 是 由 法 国政 府 提供 财政 支持 ， 同 时 也 得 
到 工业 界 的 赞助 。 


5. TERMDOK 术 语 数 据 库 


这 是 瑞典 技术 术语 中 心 的 术语 数据 库 。 北 欧 斯 堪 的 纳 维 亚 国家 的 语 
言 比 较 复杂 ， 给 科技 交流 和 进出 口 贸易 带 来 不 少 困 难 ， 因 此 非常 需要 建 
立 多 语言 的 术语 数据 库 。TERMDOK 现 收 术 语 70 ” 000 条， 语言 有 瑞典 
iE. 英语、 法 语 、 德 语 、 PRET. ARB. Me. Bi, ie 
术语 数据 库 的 建立 ， 对 于 克服 北欧 国家 的 语言 障碍 大 有 好 处 。 由 于 涉及 
的 语种 较 多 ， 术 语 的 年 平均 产量 是 5 000 到 10 000 条 。 





TERMDOK 现 有 4 个 术语 词汇 学 家 和 3 个 文献 学 家 ， 他 们 在 瑞典 技术 
术语 中 心 还 有 其 它 工作 ， 不 能 在 TERMDOK 上 全 日 班 。 


TERMDOK 术 语 库 是 建立 在 微型 计算 机 上 的 ， 但 随 着 存 入 的 术语 的 
数目 的 增加 ， 很 快 就 暴露 了 微型 计算 机 的 局 限 性 ， 现 已 转 到 DEC-10 数 
字 计 算 机 上 。 


TERMDOK 术 语 库 的 服务 方式 是 多 样 的 。 用 户 可 打 电 话 直 接 同 瑞典 
技术 术语 中 心 查询 术语 ， 除 了 供用 户 查 询 之 外 ，TERMDOK 还 出 版 了 一 
些 多 语言 术语 词典 ， 并 定期 向 读者 提供 情报 服务 。 





TERMDOK 术 语 库 得 到 瑞典 政府 的 财政 支持 ， 同 时 ， 通 过 出 售 词典 
和 咨询 服务 ，TERMDOK 本 身 也 可 以 有 一 些 经 济 收入 ， 做 到 自力 更 生 。 


6. TERMNOQ 术 语 数 据 库 


这 是 加 拿 大 魁北克 法 语 委 员 会 的 术语 数据 库 。 





TERMNOQ 术 语 数 据 库 是 根据 魁北克 省 101 号 法 令 的 精神 而 建立 
的 。 这 个 法 令 规定 ， 在 魁北克 省 的 一 切 公司 和 单位 都 必须 使 用 法 语 。 





TERMNOQ 术 语 数 据 库 现 有 70 个 术语 词汇 学 家 。 术 语 库 系统 的 维护 
由 7 个 计算 机 工程 师 组 成 的 一 个 小 组 负责 ， 他 们 有 75% 的 工作 时 间 用 于 
TERMDOQ 术 语 数 据 库 。 





该 术语 库存 的 术语 达 1 000 000 条 英 一 法 术语 对 。 已 经 确定 的 术语 存 
入 一 个 公共 文件 中 ， 而 正在 研制 的 术语 则 存 入 临时 的 工作 文件 中 ， 术 语 
的 存 取 限制 极为 严格 。 


TERMDOK 术 语 数 据 库 建 在 AMDAHL 计 算 机 上 ， 输 入 通过 软磁盘 
及 VDU 视 频 显示 装备 来 进行 ， 可 容许 联机 操作 ， 但 数据 的 处 理 和 更 新 是 
脱 机 的 。 


这 个 术语 数据 库 供 射 北 殉 省 的 官方 机 构 及 公司 使 用 。 在 法 国 巴 黎 设 
有 一 个 终端 ， 叫 做 FRANTERM， 但 尚未 运行 。 


TERMDOK 术 语 库 的 开发 和 研制 完全 由 魁北克 省 政府 提供 财政 支 


7. TERMIUM 术 语 数 据 库 





这 是 加 拿 大 蒙特 利 尔 大 学 开发 的 术语 数据 库 。 加 拿 大 国务 院 早 在 
1974 年 就 要 求 在 加 拿 大 各 政府 机 构 中 使 用 英语 和 法 语 的 标准 术语 ， 而 加 
拿 大 政府 的 文件 都 要 有 英文 和 法 文 两 种 文本 ， 这 就 要 进行 规范 的 翻译 ， 
翻译 任务 是 很 重 的 。 为 了 提高 加 拿 大 政府 翻译 服务 处 的 工作 效率 ， 才 由 
蒙特 利 尔 大 学 开发 了 这 个 术语 数据 库 。 





TERMIUM 术 语 库 的 工作 人 员 很 多 ， 雇 用 了 100 多 个 术语 词汇 学 
家 ， 术 语 库 系 统 的 维护 由 4 个 程序 人 员 组 成 的 专门 小 组 来 负责 。 


加 拿 大 联邦 翻译 局 在 从 事 浩 繁 的 瑞 一 一 法 对 译 的 工作 中 ， 可 以 积累 
成 干 上 万 的 英语 术语 和 法 语 术语 ， 因 而 自 建 库 以 来 ， 术 语 库 中 的 术语 条 
目 与 日 俱 增 ， 现 已 达 1 700 000 条 ， 除 去 重复 多 余 、 质 量 较 差 的 条 目 之 
外 ， 至 少 也 有 600 000 条 优质 的 术语 。 术 语 的 专业 领域 极为 广泛 ， 几 乎 
涉及 到 各 个 科技 部 门 。 





TERMIUM 术 语 库 建 在 CYBER 74 计算 机 上 。 主 要 用 户 是 加 拿 大 联 
邦 政府 的 翻译 人 员 。 另 外 ， 在 加 拿 大 的 某 些 驻 外 机 构 〈 人 例如， 巴黎 的 文 
化 中 心 ， 布 鲁 塞 尔 的 加 拿 大 驻 比 利 时 使 馆 ) 也 可 对 TERMIUM 术 语 库 进 
行 术语 数据 的 存 取 。 


TERMIUM 由 加 拿 大 联邦 政府 提供 全 部 的 财政 开支 。 


8. GLOT 术 语 数据 库 


这 是 联邦 德国 夫 环 和 费 研 究 院 «(Fraunhofer Gesellschaft) 的 术语 数 
据 库 ， 建 于 1985 年 。 


为 了 促进 欧洲 计算 机 信息 处 理 的 研究 ， 欧 洲 共 同体 提出 了 ESPRIT 
计划 。 所 谓 ESPRIT， 就 是 “欧洲 信息 技术 研究 和 发 展 战略 计 
Xj" (European Strategic Programme for Research and Development in 
Information Technology) 的 英文 首 字 母 缩 写 。 在 ESPRIT 计划 中 有 一 个 课 
题 叫 做 HUFIT CHuman Factors in Information Technology 的 简称 ) ， 专 门 
研究 人 的 因素 在 信息 处 理 技术 中 的 作用 ， 而 GLOT 术 语 数据 库 的 研制 ， 
就 是 HUFIT 谍 题 的 一 个 重要 方面 。 


GLOT 术 语 数据 库 建 在 DEC-VAX 11/750 计 算 机 上 ， 使 用 VMS 操 作 
系统 和 ALL-IN-ONE 软 件 。 从 1988 年 开始 ， 为 了 进一步 扩充 系统 和 改进 
系统 的 性 能 ， 改 用 UNIX 操 作 系统 和 ORACLE 关系 数据 库 。 





在 GLOT 术 语 数 据 库 中 ， 每 条 术语 包括 下 列 数 据 项 目 : 德 文 术语 、 
专业 领域 、 上 位 概念 、 等 价 的 英文 术语 、 等 价 的 法 文 术 语 、 等 价 的 意 大 
利文 术语 、 等 价 的 希腊 文 术语 、 同 义 术 语 、 缩 写 术 语 、 概 念 类 别 、 出 
处 、 日 期 、 德 文 定义 、 英 文 定义 等 。 定 义 一 方面 由 研究 院内 的 专家 撰 
t. 一 方面 采用 不 尔 翡 法 (Delphi Method) 向 研究 院 之 外 的 专家 调查 ， 
请 院外 有 关 的 专家 写 一 些 定 义 ， 同 时 ， 还 从 专业 词典 和 各 种 术语 标准 中 
精 选 一 些 定义 ， 这 样 ， 就 可 以 做 到 每 一 条 术语 都 具有 一 个 权威 性 的 定 
义 ， 为 术语 的 标准 化 提供 了 依据 。 








9. GLOT-C 中 文 术语 数据 库 


根据 中 德 科技 合作 协定 ， 本 书 作 者 于 1986 一 1988 年 在 夫 琅 和 费 研 究 
院 参 与 了 GLOT 术 语 数 据 库 的 研制 ， 使 用 UNIX 操 作 系 统 和 INGRES 关 系 
数据 库 ， 在 DEC-VAX 11/750 计 算 机 上 建立 了 中 文 术 语 数 据 库 GLOT-C。 


GLOT-C 中 文 术 语 数 据 库 收 入 了 国际 标准 化 组 织 从 1974 年 到 1985 年 
期 间 公 布 的 ISO-2382 标 准 中 的 全 部 数据 处 理 术 语 。 每 一 个 术语 条 目 包括 
如 下 项 目 : 术语 的 索引 号 、 中 文 术语 、 等 价 的 英文 术语 、 中 文 术语 的 概 
念 类 别 、 中 文 同 义 术语 、 中 文 多 源 术语 、 用 户 对 术语 的 使 用 态度 、 术 语 
的 使 用 地 区 限制 、 术 语 的 使 用 专业 领域 限制 、 中 文 术语 的 结构 格式 、 中 
文 术语 的 歧义 类 型 等 。 从 这 些 内 容 可 以 看 出 ，GLOT-C 中 文 术语 数据 库 
是 从 规范 化 和 标准 化 的 角度 来 建立 的 凯 。 








与 国外 现 有 的 其 它 术 语 数 据 库 相 比 ，GLOT-C 中 文 术语 数据 库 的 有 
两 个 显著 的 特点 : 


i. HMR BAM SR INI, EH SORTER 

W” (Potential Ambiguity Theory， 人 简称 “PA 论 ”) 。PA 论 认为 ， 当 汉语 术 
语 中 的 词组 类 型 结构 与 句法 功能 结构 不 存在 “一 一 对 应 ”的 关系 的 时 候 ， 
就 会 产生 潜在 歧义 。 在 术语 的 词组 类 型 结构 中 插入 词汇 单元 之 后 ， 这 种 
潜在 歧义 可 能 消失 ， 也 可 能 转化 为 现实 的 歧义 结构 ， 对 此 ，PA 论 制定 
了 在 中 文 术语 数据 库 中 术语 攻 义 的 判定 原则 和 方法 。 根 据 PA 论 ， 可 以 
从 中 文 术语 的 词组 类 型 出 发 ， 通 过 有 人 穷 个 步骤 ， 准 确 地 判定 中 文 术语 的 
歧义 类 型 。 关 于 这 个 问题 ， 本 书 第 五 章 第 二 节 中 已 经 作 了 论述 。 





第 二 、 重 视 术语 数据 库 基本 理论 的 研究 ， 提 出 了 “术语 形成 的 经 济 
律 "， 证 明了 术语 系统 的 经 济 指数 与 术语 平均 长 度 的 乘积 恰恰 等 于 单词 
的 术语 构成 频 度 之 值 ， 并 提出 FEL 公式 "来 描述 这 一 定律 。 进 一 步 的 实 
验证 明 ，FEL 公 式 也 适用 与 其 它 各 种 语言 的 术语 数据 库 ， 因 而 它 是 描述 





一 切 术 语 数 据 库 的 一 个 普遍 公式 ， 是 现代 术语 学 中 的 一 个 普遍 规律 ”只 


GLOT-C 中 文 术语 数据 库 是 世界 上 第 一 个 中 文 术语 数据 库 ， 这 个 术 
语 数据 库 的 建立 ， 为 中 文 术语 的 计算 机 处 理 提供 了 有 用 的 经 验 乌 。 


10. 正在 开 友 中 的 术语 数据 库 


丹麦 政府 正 开发 一 个 国家 级 的 术语 数据 库 ， 主 要 供 大 学 科研 之 用 ， 
使 用 PRIME 450/550 计 算 机 。 


联邦 德国 标准 化 委员 会 (DIN) 正在 开发 一 个 术语 数据 库 叫 做 
TERM， 现 有 术语 56000 条 。 该 术语 数据 库 与 TEAM 和 
EURODICAUTOM 都 有 密切 的 联系 。 


联邦 德国 德 累 期 顿 技 术 大 学 正在 开发 一 个 术语 数据 库 叫 做 EWF， 使 
用 俄罗斯 制造 的 563CM-6 电 子 计算 机 。 


俄罗斯 技术 情报 分 类 和 编码 研究 所 正在 开发 一 个 术语 数据 库 叫 做 
ASITO， 使 用 MINSK 22M 计 算 机 。 


向 兰 海牙 的 SHELL 公 司 正 在 开发 一 个 术语 数据 库 叫 做 Mechanized 
Dictionary， 工 作 人 员 17 人 ， 现 有 术语 14 000 条 ， 使 用 IBM 370/168 计 算 
机 。 


EE GES Be Be A (Université de Clemont-Ferand) 开发 了 一 个 小 
型 的 术语 数据 库 CEZEAU， 仪 存 建筑 工程 方面 的 英语 和 法 语 术 语 。 


委内瑞拉 加 拉 加 斯 的 西蒙 - 博 利 瓦尔 大 学 C Universidad Simon 
Bolivar) 语言 学 系 正在 开发 一 个 术语 数据 库 ， 以 收集 、 储 存 和 传播 同 该 
大 学 有 关 的 各 技术 领域 的 标准 术语 。 


美国 国家 标准 局 在 华盛顿 开发 的 术语 数据 库 ， 采 用 UNIVAC 计 算 机 
和 KWIC 软 件 。 


加 拿 大 IBM 公 司 在 蒙特 利 尔 开 发 的 术语 数据 库 ， 采 用 IBM 计 算 机 和 
STAIRS 软 件 ， 现 有 工作 人 员 18 人 。 


法 国 隔 M 公 司 在 巴黎 开发 的 术语 数据 库 ， 采 用 IBM 计 算 机 和 一 个 文 
持 文 献 翻 译 的 软件 。 


日 本 科学 技术 情报 中 心 在 东京 开发 的 术语 数据 库 ， 采 用 HITACHI 
8450 计 算 机 和 一 个 词汇 控制 系统 软件 ， 已 收 术 语 35 000 条 。 


日 本 国际 医学 情报 中 心 在 东京 开发 的 术语 数据 库 ， 采 用 IBM 370 计 
算 机 。 


瑞士 的 Brown Boveri & Cie 公 司 在 巴 登 (Baden) 开发 的 术语 数据 
库 ， 采 用 IBM 370/158 计 算 机 ， 这 个 术语 数据 库 是 从 LEXIS 系 统 移植 
的 。 

瑞士 巴塞 尔 (Basel) 人 造 丝 及 合成 纤维 标准 化 国际 管理 局 开发 的 
术语 数据 库 ， 现 有 工作 人 员 3 名 。 


美国 WEIDNER 通 讯 公 司 在 犹他 州 开 发 的 术语 数据 库 ， 使 用 DEC 
11/70 计 算 机 ， 现 有 工作 人 员 17 人 。 这 个 术语 数据 库 还 可 以 支持 该 公司 
的 机 器 翻译 系统 。 


世界 气象 组 织 在 瑞士 日 内 瓦 开发 的 术语 数据 库 ， 采 用 IBM 370/158 
计算 机 ， 现 有 工作 人 员 11 人 。 


联邦 德国 RUHRGAS 公 司 在 埃 森 (Essen) 开发 的 术语 数据 库 ， 采 用 
IBM 计 算 机 ， 软 件 是 在 EURODICAUTOM 系 统 的 基础 上 修改 而 成 的 。 


英国 伦敦 不 列 颠 图 书馆 开发 的 术语 数据 库 ， 现 有 工作 人 员 4 人 。 


术语 数据 库 的 开发 和 研制 现在 已 经 风靡 全 球 。 特 别 在 科学 技术 比较 
发 达 的 国家 ， 术 语 数据 库 的 发 展 非常 迅速 。 





在 上 述 术 语 数据 库 中 ，LEXIS， TEAM 和 EURODICAUTOM 三 个 术 
语 数据 库 是 当今 世界 上 内 容 最 丰富 ， 项 目 最 完备 的 系统 。 











上 述 术语 数据 库 的 研制 目的 不 尽 相 同 。EURODICAUTOM 术 语 库 是 
为 了 翻译 人 员 的 需要 ，NORMATERM 术 语 库 是 为 了 标准 化 的 需要 ， 而 
TEAM 术 语 库 则 采用 一 般 性 的 办 法 ， 以 适应 各 种 不 同 的 需要 ， 甚 至 还 可 
以 满足 图 书 出 版 商 的 需要 。 在 种 种 不 同 的 研究 背景 下 ， 这 些 术语 数据 库 
不 能 彼此 兼容 ， 它 们 的 术语 数据 库 数 据 互 不 兼容 ， 难 于 互 换 ， 给 术语 数 
据 库 之 间 的 交流 带 来 不 便 。 








就 是 研制 目的 相同 的 术语 数据 库 ， 术 语 条 目的 格式 、 术 语 数据 的 结 
构 也 不 完全 一 样 ， 役 此 之 间 也 很 难 兼容 。 

这 种 情况 说 明 ， 有 必要 协调 世界 范围 内 的 术语 数据 库 工 作 ， 进 行 术 
语 数据 库 的 标准 化 ， 只 有 这 样 ， 术 语 数据 库 才 可 能 发 挥 更 大 的 效益 。 


此 外 ， 国 外 一 些 出 版 公司 还 发 行 了 机 读 的 词典 数据 库 ， 这 些 数据 库 
能 够 以 软磁盘 (floppy disk) 的 方式 发 行 ， 还 能 够 以 光盘 (CD-ROM) 
的 方式 发 行 。 例 如 ， 英 国 的 Collins-MTX 词 典 把 《Collins 袖 珍 词典 》 


(Collins Pocket Dictionary) 做 在 一 个 软磁盘 上 ， 法 国 的 Le Robert 电 子 
词典 把 《Robert 法 语 大 词典 》 (Grand Robert de la langue francaise) 做 在 
一 个 光盘 上 。 





国外 还 有 一 些 软件 公司 出 售 数据 库 管 理 软件 ， 并 同时 提供 有 关 的 专 
业 词 表 。 例 如 ，Eurolux 公 司 出 售 Termex/MTX Eurolux 软 件 ， 同 时 提供 
数据 处 理 、 经 济 学 、 贸 易 等 专业 的 双语 、 三 语 或 四 语词 表 ，Trados 公 司 
出 售 TermTracer 和 MultiTerm Trados 软 件 ， 同 时 提供 计算 机 科学 、 经 济 学 
等 专业 的 词 表 。 





有 时 ， 用 户 由 于 特殊 的 需要 ， 不 能 利用 已 经 建立 好 的 术语 数据 库 和 
词典 、 词 表 等 ， 而 必须 根据 自己 的 特殊 需要 来 建立 自用 术语 数据 库 。 目 
前 ， 国 外 已 经 出 了 一 些 使 用 简单 、 售 价 低廉 的 术语 数据 库 软 件 。 例 如 ， 
德国 的 MULTITERM 软 件 可 以 管理 多 语言 术语 数据 库 ， 条 目 长 度 最 大 可 
达 4094 字 符 ， 程 序 可 和 常 驻 内 存 ， 用 户 可 利用 它 来 自 建 术语 数据 库 ; 德国 
的 INK-TERMTRACER 软 件 可 以 管理 双语 言 术语 数据 库 ， 程 序 常 驻 内 
存 ， 用 户 界 面 友好 ， 售 价 低廉 ， 适 于 用 户 自 建 术语 数据 库 。 

















我 国术 语 数 据 库 的 研究 起 步 较 晚 ， 机 电 部 机 械 科技 情报 所 1989 年 开 
台 建 立 机 电工 程 术语 数据 库 ， 计 划 收 录 50 万 条 术语 ， 第 一 期 工程 收录 25 
万 条 术语 ， 分 20 几 个 门类 ，100 多 个 专业 ， 汉 、 瑞 、 法 、 德 、 日 、 俄 六 
种 语言 对 照 ， 这 个 术语 数据 库 规模 很 大 ， 己 经 完成 。 此 外 ， 国 家 语言 
字 工 作 委员 会 语言 文字 应 用 研究 所 建立 了 英 一 汉 对 照 的 应 用 语言 学 术语 
数据 库 TAL 和 计算 语言 学 术语 数据 库 COL、 中 国 科 技 信息 所 建立 了 英 一 
汉 对 照 的 情报 与 文献 标准 术语 数据 库 、 北 各 大 学 建立 了 汉 一 英 一 日 一 德 
对 照 的 计算 语言 学 术语 数据 库 。 








术语 数据 库 的 标准 化 有 利于 协调 各 个 术语 数据 库 的 工作 ， 我 国 近来 


已 经 公布 了 《建立 术语 数据 库 的 一 般 原 则 和 方法 》 (GB/T 13725-92) 
和 《术语 与 辞书 条 目的 记录 交换 用 人 磁带 格式 》 (GB/T 13726-92) 等 国 
家 标准 ， 审 定 了 《术语 数据 库 开发 指南 》 和 《术语 数据 库 开 发 用 文件 编 
制 指南 》 等 国家 标准 。 这 些 国家 标准 为 我 国术 语 数据 库 的 开发 和 研制 提 
供 了 规范 。 


"B— 计算 术语 学 


近年 来 ， 在 术语 学 的 研究 中 ， 开 始 引进 自然 语言 的 计算 机 处 理 的 方 
法 和 技术 ， 出 现 了 * 计 算术 语 学 ”外 (computational terminology) 这 个 学 
科 。1998 年 的 计算 语言 学 国际 会 议 COLING-ACL'98 上 ， 组 织 了 世界 上 
第 一 次 计算 术语 学 的 讨论 会 (First Workshop on Computational 
Terminology) ， 这 次 讨论 会 首次 使 用 的 “计算 术语 学 ”这 个 学 科 名 称 。 这 
次 讨论 会 讨论 的 问题 主要 有 : 








m 如 何 抽取 术语 以 满足 信息 检索 的 需要 ; 
m 如 何 抽取 术语 以 便 使 用 双语 语料库 来 进行 翻译 ; 


m 如 何 进 一 步 完 善 和 原 有 术语 抽取 的 工作 例如 ， 如 何 建立 概念 层 
级 网 络 ， 如 何 搜索 语义 信息 或 概念 信息 ) 。 





1998 年 的 这 次 讨论 会 成 为 了 计算 术语 学 发 展 的 催化 剂 ， 从 此 ， 计 算 
术语 学 便 成 为 一 个 新 兴 的 术语 学 的 学 科 ， 活 跃 在 当代 科学 技术 的 百花 园 
中 ， 并 且 一 天 天 地 成 熟 起 来 ， 初 步 具 备 了 系统 的 理论 和 有 效 的 方法 ， 值 
得 我 们 特别 地 关注 。 





在 “计算 术语 学 ?这 个 名 称 出 现 10 年 之 前 ， 本 书 作者 在 1988 年 就 注意 
到 术语 的 自动 处 理 问 题 ， 他 在 德国 斯 图 加 特 〈Stuttgart) AKIRA ZI 
究 院 (Fraunhofer Gesellschaft) 使 用 计算 机 对 汉语 的 词组 型 术语 进行 了 
自动 结构 分 析 ， 并 为 术语 数据 库 GLOT-C 编 制 了 汉字 索引 ， 这 是 国际 上 
最 早 进行 计算 术语 学 研究 的 学 者 之 一 乌 。 


在 自然 语言 的 计算 机 处 理 的 诸多 领域 中 ， 都 离 不 开 术 语 ， 例 如 ， 机 
器 翻译 (machine translation) 目前 主要 是 翻译 专业 性 的 文献 ， 术 语 的 自 
动 处 理 与 机 器 翻译 系统 的 译文 质量 有 密切 的 关系 ; 此外， 信息 检索 
(information retrieval) 、 信 息 抽 取 Cinformation extraction) 、 文 本 分 
类 (text classification) 的 运算 的 基本 单位 都 是 单词 型 术语 或 词组 型 术 
语 ， 也 离 不 开 术 语 的 自动 处 理 。 








术语 是 自然 语言 处 理 中 的 一 种 特殊 的 词汇 数据 ， 与 语言 中 一 般 的 普 
通 词 汇 不 同 ， 术 语 大 多 数 都 是 由 多 个 单词 组 成 的 词组 型 术语 ， 它 们 对 于 
科学 技术 的 发 展 特别 敏感 ， 时 时 刻 刻 随 着 科学 技术 的 进步 而 发 展 。 在 术 
语 的 发 展 过 程 中 ， 它 们 不 断 地 丰富 ， 不 断 地 充实 ， 不 断 地 变化 ， 术 语 的 
语义 也 在 不 断 地 转移 ， 一 些 旧 的 术语 消失 了 ， 一 些 新 的 术语 产生 了 ， 一 
些 旧 的 术语 获得 了 新 的 含义 。 在 这 样 的 情况 下 ， 术 语 数据 库 需 要 经 常 地 
维护 ， 不 断 地 用 新 的 术语 充实 原来 的 内 容 ， 有 时 甚至 需要 重建 ， 以 反映 
科学 技术 的 日 新 月 异 发 展 的 要 求 。 这 样 ， 术 语 的 发 现 〈term detection) 
或 术语 的 获取 (term acquisition) 束 成 为 了 术语 自动 处 理 的 一 个 重要 内 
容 。 术 语 发 现 可 以 进一步 分 成 两 个 类 型 : 如果 在 术语 发 现 中 不 依赖 初始 
的 术语 数据 ， 那 么 ， 这 样 的 术语 发 现 叫 做 “初始 术语 发 现 ”(initial term 
acquisition) ; 如 果 在 术语 发 现 中 要 使 用 初始 的 术语 数据 ， 那 么 ， 这 样 
的 术语 发 现 叫 做 “ 原 有 术语 充实 ”(term enrichment) 。“ 原 有 术语 充 
实 ” 一 般 应 用 来 更 新 叙 词 表 (thesaurus) ， 把 新 发 现 的 术语 加 入 到 叙 词 
表 中 ， 进 一 步 丰 富 叙 词 表 的 内 容 。 

















在 文本 自动 处 理 中 ， 术 语 的 使 用 与 术语 的 自动 辨识 Cterm 
recognition) 是 紧密 联系 在 一 起 的 。 术 语 的 自动 辨识 主要 研究 如 何 进 行 
术语 的 自动 标 引 (automatic indexing? 。 在 自然 语言 处 理 中 ， 为 了 便于 
信息 的 存 取 ， 文 本 文献 总 是 要 使 用 单词 表 或 词组 表 ， 因 此 ， 有 必要 在 文 

















本 文献 中 进行 术语 的 自动 标 引 (automatic indexing of terms) ， 然 后 根 
据 自 动 标 引 的 结果 ， 使 用 计算 机 来 自动 地 生成 单词 型 术语 表 或 词组 型 术 
语 表 。 由 于 术语 是 科学 技术 知识 在 自然 语言 中 的 结晶 ， 术 语 能 够 浓缩 地 
表示 特定 的 科学 技术 领域 中 的 主要 概念 ， 它 们 可 以 被 看 成 是 文本 内 容 的 
抽象 描述 ， 文 本 文献 经 过 术语 的 自动 标 引 之 后 ， 就 能 大 体 上 反映 出 其 内 
容 。 因 此 ， 在 文本 上 自动 处 理 中 ， 术 语 的 自动 标 引 是 非常 重要 的 。 











根据 在 标 引 时 是 否 依赖 初始 的 术语 数据 ， 术 语 的 目 动 标 引 也 可 以 分 
为 两 个 类 型 : 如 采 在 术语 标 引 中 不 依赖 初始 的 术语 数据 ， 那 么 ， 这 样 的 
术语 标 引 叫做 “上 自由 标 引 ”(free indexing) ; 如 果 在 术语 标 引 中 要 使 用 初 
始 的 术语 数据 作为 参照 ， 那 么 ， 这 样 的 术语 标 引 叫做 * 受 控 标 


5|" Ccontrolled indexing) 。 


总 起 来 说， 术语 上 自动 处 理 可 以 这 样 来 分 类 〈 如 表 16.1 所 示 ) : 























表 16.1 术语 自动 处 理 的 四 个 主要 领域 











不 依赖 于 初始 术语 数据 依赖 于 初始 术语 数据 





术语 发 现 初始 术语 发 现 原 有 术语 充实 
术语 辨识 自由 标 引 受 控 标 引 











下 面 我 们 介绍 国外 的 术语 发 现 研究 和 术语 辨识 研究 情况 多 。 


首先 介绍 “术语 发 现 ” 的 研究 。 发 现 候选 术语 的 方法 大 致 可 以 分 为 符 
号 法 (symbolic approach) 和 统计 法 (statistical approach) 两 种 。 符 号 
法 根据 术语 (主要 是 名 词 词组 ) 的 句法 描述 来 发 现 候选 术语 ; 统计 法 根 
据 词组 型 术语 中 组 成 成 分 的 互信 息 CMutual Information) 来 发 现 术语 ， 
组 成 成 分 之 间 的 互信 息 越 大 ， 它 们 组 成 术语 的 可 能 性 也 就 越 大 。 符 号 法 








和 统计 法 还 可 以 进一步 细 分 为 如 下 的 各 种 方法 : 

(1) 基于 语法 的 术语 发 现 方 法 : 例如 ， 在 1994 年 ， 洛 里 斯 通 〈A. 
Lauriston) 在 TERMINO 系 统 中 提出 了 一 种 基于 语法 的 术语 发 现 方法 ， 
这 种 方法 要 对 文本 进行 剖析 ， 利 用 文本 中 的 单词 和 句法 线索 Clexical 
and syntactic clues) 来 发 现 术 语 四 。 齐 析 模 型 的 操作 顺序 如 下 : 


a. PAESE: 首先 对 文本 进行 过 滤 ， 除 去 那些 对 于 术语 发 现 无 用 的 形 
式 特征 (如 ， 虚 词 ， 保 用 词 ，; 


b. 训 析 并 抽取 术语 : 
JJ 

m 名 词 短语 剖析 |; 
m REER. 


c. 交互 式 术语 数据 库 的 构建 和 管理 : 给 用 户 提供 友好 的 界面 ， 把 前 
面 步 又 中 抽取 出 来 的 术语 构建 成 术语 数据 库 。 


(2) 句法 模式 与 选择 限制 相 结合 的 方法 : 例如 ， 在 1996 年 ， 布 尼 
果 尔 特 CD. = Bourigault) 研制 的 术语 自动 处 理工 具 LEXTER B 
LEXTER 使 用 带 标记 的 语料库 ， 语 料 库 中 的 标记 有 词汇 特征 的 标记 和 名 
法 模式 的 标记 两 种 ， 这 个 工具 有 一 个 可 视 化 的 界面 ， 可 用 来 确认 并 组 织 
从 带 标 记 的 语料库 中 抽取 出 来 的 术语 。 使 用 这 样 的 方法 发 现 术语 的 过 程 
如 下 : 


a. 最 大 名 词 短 语 的 分 离 : LEXTER 可 使 用 分 离 规则 ， 从 最 大 名 词 短 
语 Cmaximal noun phrase) 中 把 可 能 性 最 大 的 术语 边界 分 离 出 来 。 例 





如 ， 在 法 语 的 最 大 名 词 短 语 中 ， 过 去 分 词 与 介词 结合 而 成 的 组 合 很 可 能 
是 术语 的 边界 ， 在 法 语 最 大 名 词 短语 les clapets situés sur les tubes 
d'alimentation 《位 于 进 气 管 上 的 阀门 )》 中 ，situés ”sur 是 术语 的 边界 ， 把 
整个 名 词 短语 分 离 为 les clapets (RTJ) filles tubes d'alimentation CS 
管 ) 两 部 分 ， 这 两 部 分 分 别 是 两 个 不 同 的 术语 。 其 中 ，“situés sur” 是 句 
法 模式 ， 这 个 模式 的 使 用 取决 于 句法 模式 situés sur 的 选择 限制 : 这 个 句 
法 模式 的 前 面 和 后 面 都 应 当 是 名 词 短 语 。 在 最 大 名 词 短 语 les clapets 
situés sur les tubes d'alimentation, les clapets 和 ]les tubes d'alimentation 1E 
好 是 名 词 短语 ， 句 法 模式 的 这 种 选择 限制 是 通过 内 置 的 机 器 学 习 程序 从 
语料库 中 自动 地 学 习 得 到 的 。 








b. 把 最 大 名 词 短 语 分 解 成 候选 术语 : 确定 了 术语 的 边界 之 后 ， 就 可 
以 把 最 大 名 词 短语 分 离 为 两 个 部 分 ， 通 过 计算 机 处 理 之 后 ， 最 后 由 人 来 
判定 这 些 候 选 术语 ， 并 把 确认 后 的 术语 加 入 到 术语 数据 库 中 。 例 如 ， 确 
^E f situés sur 是 不 同 术 语 的 边界 之 后 ， 束 可 以 从 最 大 名 词 短 语 les clapets 
situés sur les tubes dalimentation 中 ， 把 术语 les clapets 和 术语 les tubes 
dalimentation 自 动 地 抽取 出 来 ， 作 为 候选 术语 ， 加 入 到 术语 数据 库 中 。 
又 如 ， 在 法 语 中 ，pyl ne à haute tension (高 压 电线 架 ) 的 句法 模式 
是 : N+Prep+Adj+N， 经 过 最 大 名 词 短 语 分 离 之 后 ， 把 N+Prep+Adj+N 分 
离 为 NtfPrep 和 Adj+N 两 个 部 分 ， 最 后 ， 再 把 结构 类 型 为 Adj+N 的 haute 
tension (fy RF) 作为 候选 术语 提取 出 来 ， 加 入 到 术语 数据 库 中 。 





c. ”候选 术语 编组 : 根据 所 得 到 的 候选 术语 在 句法 结构 上 的 相似 程 
度 ， 把 它们 组 织 起 来 。 例 如 ， 法 语 中 的 vanne motorisés (电动 门 ) 、 
vanne pneumatique 〈 和 气动 门 ) vanne d'alimentation 〈 进 气门 ) 都 有 共同 
的 中 心 词 vanne， 就 把 它们 组 织 起 来 ， 形 成 一 组 彼此 之 间 有 关系 的 候选 
术语 。 


d. 专家 审定 : 这 些 进入 术语 数据 库 的 候选 术语 ， 由 专家 做 最 后 的 审 
定 ， 确 定 为 正式 的 术语 ， 充 实 了 原 有 的 术语 。 


(3) 句法 模式 与 统计 过 滤 相 结合 的 方法 : 例如 ， 在 1996 年 ， 达 义 
(B. ”Daille〉 研 制 的 ACABIT 是 一 个 把 句法 模式 与 统计 过 小 结合 起 来 的 
术语 研究 工具 鲁 。ACABIT 获 取 候 选 术 语 的 步骤 如 下 : 


a， 语 言 规则 过 小 Cinguistic filtering) : 根据 术语 结构 的 语言 学 规 
则 ， 使 用 有 限 状 态 转 移 网 络 发 现 候选 术语 ， 在 喘 语 中 ， 主 要 考虑 三 种 模 
式 的 术语 : Adj+N, N+N, N+Prep+N。 由 这 三 种 模式 扩展 而 形成 的 变 体 ， 
也 可 以 作为 候选 术语 的 科 选 范围 。 例 如 ，satellite transit 
network (N+N+N) 可 以 看 成 是 由 N+N 模 式 扩 展 而 成 的 ，multiple 
satellite links (Adj+N+N) 可 以 看 成 是 由 模式 Adj+N 和 模式 N+N 扩 展 而 成 
的 。 








b. 统计 排序 (statistical ranking) : 使 用 某 些 统计 方法 ， 对 前 面 的 步 
又 筛选 出 来 的 候选 术语 进行 排序 。 例 如 ， 计 算 候 选 术 语 的 “对 数 似 然 
BE" Cog-likehood ratio) ， 根 据 计 算 结 果 对 于 候选 候选 术语 排序 ， 得 出 
在 统计 意义 上 可 能 性 最 大 的 术语 。 





(4) 抽取 搭配 信息 的 方法 : 例如 ， 在 1993 年 ， 司 马 佳 〈E. 
Smadja) 研制 的 Xtract 是 一 个 专门 用 于 抽取 搭配 关系 的 工具 Ol. Xtract 
的 重点 不 是 关心 术语 本 有 身 ， 而 是 关心 术语 在 意义 上 的 可 搭配 性 。 只 有 那 
些 在 语义 上 可 以 搭配 的 词语 才 可 以 算 做 候选 术语 例如 ，stock trader CF 
RAD ，last selloff (最 后 的 存货 ) 在 语义 上 是 可 以 搭配 的 ， 根 据 这 种 
搭配 信息 ， 可 以 把 它们 抽取 为 候选 术语 。 候 选 术语 的 选择 也 要 考虑 概 














(50 非 语言 学 的 方法 : 使 用 独立 于 语言 的 术语 抽取 工具 来 抽取 术 
iB. Bion, WIKIS CC. Enguehard) 和 盘 特 拉 CL. Pantera) 在 1995 年 
研制 的 术语 提取 工具 ANA 出 。ANA 是 独立 于 具体 语言 的 术语 自动 抽取 
工具 ， 这 个 工具 包括 两 个 模块 : 





a. 预 熟悉 模块 (familiarization module) : 使 用 预 熟悉 模块 来 确定 三 


类 词语 : 


m 停 用 词语 表 (stop list) : 停 用 词 通 第 是 一 些 频 度 很 高 的 词语 ， 这 
些 词语 者 不 具有 专业 性 。 


m 种 子 术语 表 (set of seed terms) : 使 用 人 工 从 语料库 中 选 出 反映 
专业 概念 的 术语 作为 种 子 术 语 (seed term) ， 构 成 种 子 术 语 表 。 


m 结构 词语 表 (set of scheme words) : 这 些 结构 词语 一 般 是 介词 或 


限定 词 之 类 的 虚词 ， 它 们 在 语料库 中 往往 与 种 子 术 语 一 起 出 现 。 











b. ”发 现 模 块 (discovery module) : 使 用 机 器 自动 学 习 中 的 “ 目 
举 ”(bootstrap) 方 法， 一 步 一 步 地 扩充 从 预 熟悉 模块 中 得 到 的 种 子 术语 
的 规模 ， 从 而 发 现 更 多 的 术语 。 





在 用 于 术语 发 现 的 上 述 五 种 方法 中 ， 前 两 种 方法 都 不 使 用 统计 ， 假 
定 文 本 中 符合 条 件 的 全 部 词语 都 是 候选 术语 ， 哪 怕 只 出 现 一 次 的 “军用 
wif” Chapax legomenon) ， 只 要 它们 符合 条 件 ， 也 都 在 候选 术语 的 考 
虑 范围 之 内 。 这 两 种 方法 是 非 统 计 的 方法 。 使 用 这 样 的 非 统 计 方 法 时 ， 
术语 的 判定 离 不 开 用 户 ， 需 要 给 用 户 提 供 交 互 工 具 ， 以 便 用 户 对 于 候选 
术语 进行 选择 。 后 面 三 种 方法 都 要 使 用 统计 来 进行 过 小 或 排序 ， 在 这 样 
的 情况 下 ， 考 虑 候选 术语 出 现 的 上 下 文 环 境 就 显得 非常 重要 了 ， 因 为 统 
计 的 数据 需要 在 具体 的 文本 或 语料库 中 才 可 以 计算 出 来 ， 离 开 了 具体 的 














文本 或 语料库 ， 不 可 能 进行 任何 的 统计 ， 当 然 也 就 不 可 能 发 现 术 语 了 。 


术语 辨识 主要 是 做 术语 的 目 动 标 引 。 





传统 的 上 自动 标 引 主要 使 用 * 词 口袋 ”(bag-of-words) 的 方法 ， 这 种 
方法 只 是 简单 地 把 所 标 引 的 单词 直接 地 与 它们 所 在 的 文本 联系 起 来 ， 基 
本 上 不 考虑 这 些 单词 的 语言 结构 信息 。 这 是 “ 词 口袋 ”技术 的 缺点 。 如 果 
在 术语 的 上 自动 标 引 时 ， 要 求 保 持 术 语 中 单词 的 顺序 ， 还 要 求 反 映 出 术语 
的 结构 以 及 术语 中 单词 之 间 的 依存 关系 ， 这 时 ， 简 单 的 * 词 口袋 ”技术 束 
显得 不 足 了 。 为 了 反映 单词 的 语言 结构 信息 ， 需 要 对 于 术语 进行 自动 章 
析 。 术 语 自动 剖析 的 深度 取 雇 于 具体 的 需要 ， 可 以 进行 浅 层 的 句法 齐 
析 ， 也 可 以 进行 比较 深层 的 句法 分 析 。 

















根据 自动 剖析 的 深度 ， 术 语 的 自动 标 引 可 以 分 为 基于 浅 层 句 法 剖析 
的 自动 标 引 和 基于 深层 句法 剖析 的 自动 标 引 。 基 于 浅 层 句法 谢 析 的 自动 
标 引 使 用 的 标 引 技术 有 文本 简化 (text simplification) 、 基 于 窗口 的 关 
键 词 识别 Cwindow-based keyword recognition) 等 。 基 于 深层 句法 剖析 
的 自动 标 引 使 用 的 标 引 技术 有 基于 依存 关系 剖析 的 上 自动 标 引 和 基于 转换 
剖析 的 自动 标 引 。 下 面 介 绍 三 种 简单 的 术语 自动 标 引 方法 。 


























(1) 文本 简化 方法 : 在 1983 年 ， 迪 容 (M. Dillon) MAK (A. 
S. Gray) 研制 的 FASIT 系 统 使 用 了 文本 简化 的 方法 B2 。FASIT 的 自动 
标 引 分 两 步 : 





a 标注 与 模式 匹配 : FASIT 首 先 使 用 后 缀 规则 和 不 规则 后 级 的 特例 
表 对 于 文本 进行 形态 分 析 ， 对 有 关 的 词语 进行 词类 标注 ， 然 后 把 分 析 得 
到 的 带 有 词类 标记 的 文本 与 表示 术语 结构 的 句法 模式 〈 例 如 ，N， N+N, 
Proper-noun+N 等 ) 相 匹 配 ， 得 到 有 关 术 语 的 句法 模式 的 标 引 。 


b. 标 引 合并 : 使 用 文本 简化 技术 ， 把 得 到 的 句法 模式 标 引 进行 合 
并 ， 合 并 步骤 如 下 : 





词根 还 原 ; 


词 序 重组 。 





这 样 ， 便 可 以 得 到 带 有 人 句法 模式 的 术语 标 引 。 


(2) 名 词 词 组 的 歧义 消解 方法 : 在 1991 年 ， 伊 万 斯 CD. A. 
Evans) 研制 的 CLARIT 系 统 U2! ， 把 自然 语言 处 理 中 的 形态 分 析 技术 、 
浅 层 剖析 技术 和 统计 过 滤 技 术 结合 起 来 ， 对 于 名 词 短 语 进行 歧义 消解 。 
首先 ， 对 文本 进行 形态 分 析 ， 使 名 词 短 语 术 语 中 的 单词 得 到 没有 歧义 的 
词类 标记 。 然 后 对 所 得 到 的 带 有 词类 标记 的 名 词 短语 术语 进行 句法 齐 
析 ， 得 到 候选 的 名 词 短 语 结构 。 例 如 ， 名 词 短 语 the redesigned R3000 
chips from DEC 《来自 DEC 公司 的 重新 设计 R3000 的 必 上 请 ) 经 过 这 样 的 
Mitt Zia, Bl 














[the] pe [redesigned R3000] ps4 [chips] eag [from 


DEC ] PostMo 


其 中 ，Det 表 示 限 定 词 ，Head 表 示 中 心 词 ，PreMod 表 示 前 修饰 语 ， 
PostMod 表 示 后 修饰 语 。 


剖析 得 到 的 候选 术语 再 根据 统计 特征 进行 排序 。 


在 使 用 CLARIT 时 是 不 考虑 结构 歧义 的 ， 因 此 ， 标 引 的 结果 还 需要 


进一步 使 用 基于 语料库 的 技术 进行 结构 消 歧 ， 得 到 没有 络 构 歧义 的 标 
引 。 


(30 AF Ass Wace Ae: 有 一 些 研究 者 使 用 句法 剖析 
需 从 文本 中 抽取 名 词 短 语 术语 。 放 析 时 术语 的 语法 关系 的 表示 方法 主要 
有 了 两 种 : 一 种 是 基于 结构 成 分 的 分 析 方 法 ， 一 种 是 基于 依存 关系 的 分 析 
FIR 





a. 基于 结构 成 分 的 分 析 方 法 : 在 1995 年 ， 斯 特 拉 科 夫 斯 基 (T. 
Strzalkowski) 研制 的 TTP 齐 析 器 ， 使 用 基于 结构 成 分 分 析 法 ， 可 以 产生 
出 词组 型 术语 的 树 形 结构 ， 在 树 形 结构 中 ， 表 示 出 中 心 词 (head) MIE 
有 关 的 论 元 (argument) 44 。 例 如 ， 名 词 短语 the former Soviet 
president( 前 苏联 的 总 统 ) 被 分 析 为 如 下 的 树 形 结 构 : 


[np [yn president] [roos the] [Ag — [former] ] Laaj 


[Soviet] ] | 


TIP 齐 析 器 是 根据 比较 全 面 的 英语 语法 来 设计 的 ， 使 用 了 “语言 串 语 
ik" (Linguistic String Grammar) 的 理论 ， 语 法 范畴 主要 来 和 目 《牛津 高 
级 英语 学 习 词典 》 (Oxford Advanced Learner Dictionary) 。 





由 ITTP 剖 析 融 分 析 得 出 的 词组 型 术语 ， 可 以 用 来 从 文本 中 目 动 地 生 
成 术语 标 引 。 由 于 经 过 标 引 后 的 这 些 术语 都 带 有 人 句法 结构 的 信息 ， 对 于 
机 噩 翻译 、 信 息 检索 等 自然 语言 处 理 古 非常 有 用 的 。 








在 1990 年 ， 梅 次 乐 耳 (Metzler) 设计 了 成 分 对 象 剖 析 器 
COP (Constituent Object Parser) ， 这 个 剖析 器 只 使 用 二 元 的 依存 关系 
言 上 息 ， 由 于 树 形 结构 中 的 支配 关系 具有 传递 性 ， 一 个 具有 n 层 依存 关系 








的 树 形 结构 可 以 转换 成 具有 n-1 层 的 二 又 树 形 结构 ， 这 样 ， 所 有 的 树 形 
结构 都 可 以 变 成 二 元 的 树 形 结构 。 例 如 ，small liberal arts college for 
scared junior 〈 为 胆 小 的 少年 办 的 小 型 的 自由 艺术 学 校 ) 可 以 被 分 析 为 如 
下 的 树 形 结构 : 


[* [small * [liberal * [arts *college] ] ] [for * [scared 


*junior] ] ] 


liberal * scared * junior 


arts * college 
图 16.1 表示 二 元 关系 的 二 叉 树 





其 几何 形状 为 : 





其 中 的 每 一 个 子 树 都 是 二 元 的 ， 标 有 * 写 的 子 树 是 中 心 语 ， 没 有 * 号 
的 成 分 是 附加 语 ， 根 结 点 上 没有 加 任何 的 标记 ， 子 树 [for  * [scared 
*junior] ] 是 修饰 college 的 ， 也 不 代 任何 的 标记 。 从 这 个 二 又 树 中 可 以 
看 出 ， 中 心 语 标 记 * 是 具有 继承 关系 的 ， 它 们 可 以 由 下 层 传递 到 上 层 。 








b. 基于 依存 关系 的 分 析 方 法 : 在 1988 年 ， 施 瓦尔 次 “Schwarz) Wf 


制 了 COPSY 系 统 ， 这 个 系统 使 用 法 国语 言 学 家 泰 尼 埃 CL. Tesniére) jë 
出 的 “依存 语法 ”(dependency grammar) HI ， 对 名 词 短语 术语 进行 自动 
剖析 ， 剂 析 的 结果 要 表示 出 名 词 短语 术语 中 的 依存 关系 。 例 如 ， 
problems of fresh water storage and transport in containers or tanks C RH] SX 
箱 或 水 箱 储 存 和 运输 的 新 鲜 水 的 问题 ) 经 过 COPSY 剂 析 之 后 ， 可 以 得 
到 如 下 的 依存 关系 : 








fresh 2 water 

water 5 storage > problem water — transport — problem 
container — storage container — transport 

tank 5 storage tank transport 


其 中 , “一 ”表示 “依存 于 ”， 例 如 ，fresh 2 waterzezrfreshfk {f T water. 
这 些 依存 关系 是 根据 名 词 短语 术语 中 单词 之 间 的 结构 特性 建立 起 来 的 ， 
是 依存 分 析 的 结果 。 














(4) 术语 变 体 的 识别 方法 : 一 个 术语 往往 会 存在 奋 干 个 不 同 的 变 
VS (variation) ， 因 此 ， 在 术语 的 计算 机 目 动 处 理 中 ， 还 要 研究 术语 变 
体 的 识别 问题 。1999 年 ， 雅 克 曼 〈C. Jacquemin) 研制 了 FASTR 系 统 U6! 
， 使 用 结构 转换 与 词汇 关系 结合 的 方法 来 识别 术语 变 体 。 术 语 的 词汇 关 
系 可 以 反映 在 形态 的 联系 上 例如 ， 具 有 相同 的 词根 的 术语 在 形态 有 联 
系 ) ， 也 可 以 有 反映 在 语义 的 联系 上 例如， 同 义 术 语 ， 反 义 术语 ) 。 
FASTR 可 以 识别 出 malignancy in orbital tumours (有 眼帘 肿瘤 的 恶性 ) 是 
malignant ”tumour《〈 恶 性 的 肿瘤 ) 的 变 体 ， 因 为 malignancy〈 和 恶性 ) 和 
malignant GREW) 在 形态 上 相关 ， 它 们 都 包含 词 干 malignan-， 而 且 ， 
malignancy in orbital tumours 的 结构 模式 为 N+Prep+Adj+N， 这 个 模式 与 





FASTR 系 统 定义 过 的 名 词 短语 模式 N+Prep+Ad+N 相 匹配 ， 据 此 可 以 判 
断 它 是 一 个 词组 型 术语 ， 是 术语 malignant tumour 〈 恶 性 的 肿瘤 ) 的 变 
体 。 这 样 的 术语 变 体 应 当成 为 术语 的 自动 发 现 和 自动 辨识 关注 的 对 象 
71 o 


术语 的 变 体 有 四 类 : 形态 变 体 (morphological variation) 、 句 法 变 
YS (syntactic variation) 、 语 义 变 体 (semantic variation) 、 扩 展 变 体 
(expanded variation) 。 分 述 如 下 : 





m 形态 变 体 (morphological variation) : 有 形态 变化 或 派生 关系 的 
术语 变 体 叫做 形态 变 体 。 例 如 ，measure (测量 ) 和 measurement〔 测 
量 ) 有 形态 上 的 联系 ，measurement 是 measure 加 后 级 -ment 构 成 的 ， 
measure 和 measurement 之 间 有 派生 关系 ， 它 们 是 术语 的 形态 变 体 ; 
cell (细胞 ) 和 cells (“细胞 ”的 复数 形式 ) 之 间 也 有 形态 上 的 联系 (一 个 
是 单数 形式 ， 一 个 是 复数 形式 ) ， 也 是 术语 的 形态 变 体 。 类 似 地 ， 
analysis method 一 analytic method — analytical method 〈 分 析 方 法 ) ， 
cell component — cellular component〈 细 胞 成 分 ) cell differentiation 一 
cellular differentiation 〈 细 胞 分 化 ) , formula 一 formulae (AX) , 
accuracy 一 accuracies (精确 度 ) 都 是 术语 的 形态 变 体 。 在 术语 的 。 在 
术语 的 自动 发 现 和 上 自动 辨识 中 ， 必 须 处 理 这 些 形态 变 体 ， 否 则 就 会 影响 
系统 的 召回 率 (recall)。 


国人 句法 变 体 〈syntactic variation) : 与 句法 结构 有 关 的 术语 变 体 叫 
做 句法 变 体 。 例 如 ，comprehension of language 是 language comprehension 
的 句法 变 体 ， 前 者 的 句法 结构 是 N+toftrN， 而 后 者 的 句法 结构 是 N+N。 
类 似 地 ，disease of the abdomen — abdominal disease (AJAJE) ， 
fraction of cell 一 cells of fractions 〈 细 胞 分 离 ) thresholds of perception 


— perception thresholds (/&& Fb) , autoimmune disease — disease 
with autoimmune (自身 免疫 疾病 ) 也 都 是 术语 的 句法 变 体 。 在 术语 的 自 
动 友 现 和 自动 辨识 中 ， 必 须 处 理 这 些 句法 变 体 ， 人 否则 就 会 影响 系统 的 召 
回 率 (recall) 。 


m 语义 变 体 (semantic variation) : 有 语义 联系 的 术语 变 体 叫做 话 
义 变 体 。 例 如 ，speech comprehension 〈 口 语 理解 ) 是 language 
comprehension (语言 理解 〉 的 语义 变 体 ， 因 为 speech (口语 ) 和 
language 语言) 有 语义 上 的 联系 ， 它 们 是 近 义 术 语 。 类 似 地 ，response 
rate 一 reaction rate (反应 速度 ) , anterior part — anterior segment (前 
部 ) 也 都 是 术语 的 语义 变 体 。 在 术语 的 自动 发 现 和 上 自动 辨识 中 ， 必 须 处 
理 这 些 语义 变 体 ， 否 则 就 会 影响 系统 的 召回 率 (recall) 。 





m 扩展 变 体 Cexpanded variation) : 由 基本 术语 扩展 而 成 的 术语 叫 
做 术语 的 扩展 变 体 。 术 语 扩展 的 手段 有 修饰 (modification) 、 并 列 
(coordination) 、 结 构 转 换 (structural transformation) 等。 术语 经 过 扩 
展 之 后 ， 其 含义 可 能 会 发 生变 化 ， 但 是 ， 在 术语 的 自动 发 现 中 ， 这 种 扩 
展 术语 与 基本 术语 有 和 密切 的 联系 ， 对 于 自动 发 现 具有 参考 价值 ， 仍 然 应 
当 是 术语 发 现 研究 的 对 象 。 例 如 ，abnormal chromosome 〈 非 正常 染色 
体 ) 通过 在 chromosome 前 面 附加 修饰 语 X 扩 展 而 成 的 abnormal X 
chromosome (JEE $X Ik) 就 是 术语 abnormal chromosome 的 扩展 变 
YS; axillary vein〈 腋 静脉 ) 通过 在 vein 的 前 面 并 列 artery and 的 方式 扩展 
而 成 的 axillary artery and vein 〈 腋 动脉 和 腋 静脉 ) 就 是 术语 axillary vein 
的 扩展 变 体 ，isolated cell〈 离 体 细 胞 ) 通过 结构 转换 之 后 成 为 句子 cells 
were isolated CAES f) ， 这 个 句子 与 术语 isolated cell 有 密切 的 联 
系 ， 对 于 术语 的 自动 发 现 有 价值 ， 也 可 以 看 成 是 术语 isolated cell 的 扩展 
变 体 。 类 似 地 ，benign neoplasm 〈 和 良性 歼 生 物 ) —neoplasm ^ were 











benign 〈 歼 生物 是 良性 的 ) hypothesis ”test〔 假 设 检验 ) 一 test this 
hypothesis 〈 检 验 这 个 假设 ) 也 都 可 以 看 成 是 术语 的 扩展 变 体 。 在 术语 

的 上 自动 发 现 和 目 动 辨识 中 ， 必 须 处 理 这 些 扩展 变 体 ， 人 否则 惑 会 影响 系统 
的 召回 率 (recall) 。 


FASTR 是 为 受 控 标 引 而 研制 的 。 这 个 系统 首先 输入 一 个 权威 性 术语 
表 ， 把 它 转换 成 可 计算 的 数据 ， 并 自动 生成 这 些 术语 的 候选 变 体 。 然 后 
再 把 这 些 候选 变 体 与 语料库 中 的 数据 相 比 较 ， 最 后 检索 出 真正 的 术语 变 
体 。 


上 面 介 绍 的 都 是 单 语 言 的 术语 目 动 处 理 ， 下 面 我 们 介绍 双语 言 的 术 
语 目 动 处 理 。 


双语 言 的 术语 目 动 发 现 一 般 要 分 两 步 走 。 第 一 步 是 术语 抽取 ， 在 双 
语言 的 语料库 中 分 别 进 行 术语 目 动 抽取 ， 找 出 每 一 种 语言 中 的 术语 ; 第 
二 步 是 术语 对 齐 Calignment) ， 找 出 在 不 同 语言 之 间 术 语 的 对 应 关系 。 


双语 言 的 语料库 中 术语 的 对 齐 有 不 同 的 方法 。 郭 溪 (E. Gaussier) 
的 方法 是 ， 先 进行 句子 的 对 齐 ， 然 后 再 在 已 经 对 齐 的 句子 中 进行 术语 对 
齐 HI ， 这 是 一 种 先 处 理 大 的 语言 单位 ， 再 处 理 小 的 语言 单位 的 “从 大 到 
Wei. (Axe, WAR CD. Hull) 则 提出 了 不 同 的 方法 。 他 先进 行 单词 
型 术语 对 齐 ， 再 进行 术语 抽取 ， 最 后 进行 词组 型 术语 的 对 齐 。 单 词 型 术 
语 的 对 齐 和 词组 型 术语 的 对 齐 都 使 用 了 无 回溯 的 “贪心 算法 ”(greedy 
algorithm) BA 。 这 是 一 种 先 处 理 小 的 语言 单位 ， 后 处 理 大 的 语言 单位 
的 “从 小 到 大 ”方法 。 








计算 术语 学 是 一 个 新 兴 的 术语 学 的 学 科 ， 这 个 学 科 的 出 现 ， 反 映 了 
言 息 网 络 时 代 对 于 术语 学 研究 的 新 要 求 ， 是 信息 网 络 时 代 对 于 术语 学 的 








挑战 ， 值 得 我 们 密切 关注 。 


关于 术语 的 自动 发 现 和 术语 的 上 自动 辨识 方法 ， 今 后 我 们 还 可 以 研究 
如 下 问题 ; 


m 建 祥 大 规模 的 专业 语料库 ， 开 展 专业 语料库 的 研究 ， 进 行 基于 语 
料 库 的 语义 标注 研究 和 语义 关系 自动 获取 的 研究 。 


u 研究 专业 语料库 构建 的 新 技术 。 





m ”在 大 规模 的 专业 语料库 中 ， 获 取 更 多 的 语义 学 资源 和 形态 学 资 
源 ， 以 便 为 术语 或 术语 变 体 的 自动 发 现 提供 可 靠 的 数据 。 

m 把 基于 规则 的 方法 、 基 于 统计 的 方法 以 及 机 器 学 习 的 方法 结合 起 
来 ， 研 究 术 语 发 现 和 术语 辨识 的 新 的 “混合 方法 ”(hybrid solution) 22 








E 对 专业 语料库 进行 加 工 ， 使 它 带 有 更 加 丰富 的 信息 ， 使 普通 
的 “上 下 文 ”(context) 变 成 * 富 语 境 ”(rich context) ， 使 语料库 中 的 上 
下 文 更 具有 解释 性 和 说 明 性 ， 把 一 般 上 下 文中 的 文本 信息 和 富 语 境 中 包 
含 的 结构 信息 结合 起 来 ， 进 行 术语 的 发 现 和 辨识 。 




















m 建立 更 加 完善 的 交互 界面 ， 以 便 专 业 人 员 更 方便 地 对 候选 术语 进 
行人 工 判定 。 


计算 术语 学 的 研究 要 以 真实 的 科学 技术 文本 为 依据 ， 要 对 于 文本 中 
的 术语 和 多 种 多 样 的 术语 变 体 进行 深入 的 描写 和 分 析 ， 这 样 ， 术 语 学 的 
研究 就 不 能 只 停留 在 规范 (normalization? 的 平面 上 ， 而 要 逐步 地 推进 
到 描写 (description) 的 平面 上 。 在 信息 网 络 时 代 ， 术 语 学 正在 经 历 着 


从 传统 的 “规范 术语 学 ”(prescriptive terminology) 到 现代 的 “描写 术语 
学 ”(descriptive terminology) 的 转化 过 程 。 这 是 术语 学 发 展 的 一 个 新 的 
趋势 o 











可 以 看 出 ， 计 算术 语 学 具有 非常 广阔 的 发 展 前 景 ， 在 自然 语言 计算 
机 处 理 的 研究 中 ， 我 们 应 当 关注 计算 术语 学 这 个 新 兴学 科 的 发 展 ， 推 动 
我 国术 语 学 研究 的 现代 化 进程 ， 使 术语 学 这 个 传统 的 学 科 ， 在 信息 网 络 
时 代 大 放 异 彩 。 
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第 十 七 草 ”计算 机 辅助 语言 教学 和 
15 E 言 测 试 





目 然 语言 处 理 技 术 还 可 以 应 用 于 语言 教学 和 语言 测试 中 ， 这 是 自然 
语言 处 理 技 术 应 用 的 一 个 重要 方面 。 








“计算 机 辅助 语言 教学 ”(Computer Assisted Language Learning， 简 
BRCALL) 是 指 在 语言 教学 中 ， 按 照 人 们 事先 安排 好 的 语言 教学 计划 ， 
使 用 计算 机 进行 课堂 教学 和 辅助 课外 操练 。 计 算 机 辅助 语言 测试 

(Computer Assisted Language Test， 简 称 CALT) 是 指 在 语言 测试 中 使 
用 计算 机 来 辅助 出 题 、 考 试 、 评 分 、 进 行 试 卷 分 析 及 成 绩 反 馈 等 。 





本 章 介 绍 计算 机 辅助 语言 教学 和 语言 测试 。 





第 一 站 “计算 机 辅助 语言 教学 


“计算 机 辅助 语言 教学 ”(Compnuter Assisted Language Learning， 简 
BKCALL) 是 “计算 机 辅助 教学 ”(Computer Assisted — Learning， 简称 
CAL) 的 一 个 领域 。 


为 了 帮助 读者 理解 CALL 的 基本 原理 和 方法 ， 我 们 有 必要 介绍 一 下 
从 CAL 到 CALL， 发 展 历程 。 


在 电子 计算 机 问世 之 初 ， 就 有 人 设想 把 它 用 于 教学 。 在 20 世 纪 50 人 年 
代 和 60 年 代 之 交 ， 美 国 就 开始 研究 “计算 机 辅助 教学 ”(Computer- 
Assisted Learning， 简 称 CAL) 的 问题 了 。 


美国 最 早 开 始 CAL 试 验 的 是 IBM 公 司 的 证 斯 顿 研究 中 心 。 该 中 心 于 
1958 年 设计 了 第 一 个 计算 机 辅助 教学 系统 ， 利 用 一 合 IBM650 计 算 机 连 
接 一 台电 传 打 字 机 来 教 小 学 生 学 习 二 进 制 算术 ， 并 能 根据 小 学 生 的 要 求 
目 动 地 生成 练习 题 。 


1959 年 ， 美 国 伊利 诡 依 大 学 研制 出 PLATO 计 算 机 辅助 教学 系统 
(Programmed Logic for Automatic Teaching Operation, {aj#KPLATO) , 
该 系统 在 CDC 计 算 机 公司 的 协助 下 ， 经 过 多 年 的 努力 ， 从 一 次 只 能 处 理 
一 个 终端 的 PLATO-I 系 统 发 展 到 带 有 四 上 百 多 个 终端 的 PLATO-II 系 统 ， 可 

以 讲授 几 百 种 课程 。 


美国 斯 坦 福 大 学 从 1963 年 开始 ， 利 用 计算 机 讲授 逻辑 学 导 轮 、 集 合 
论 、 程 序 设 计 、 俄 语 、 德 语 等 课程 ， 并 与 IBM 公 司 合 作 ， 在 1966 年 研制 
出 IBM1500 教 学 系统 ， 这 个 系统 除了 能 开设 数理 逻辑 、 多 种 外 国语 、 哲 


学 、 数 学 、 音 乐理 论 等 课程 之 外 ， 还 有 一 些 为 小 学 生 和 父 呈 学 生 准 备 的 
CREE, ERE EERS - 


1971F, KHERI EA ARKE (Brigham 
Young University) 和 梅 特 CMITRE) 公司 合作 ， 设 计 出 TICCIT 计 算 机 
辅助 教学 系统 (Time-shared Interactive Computer Controlled Information 
Television, fajPKTICCIT) ， 这 个 系统 以 电视 技术 为 基础 ， 配 合 两 台 
NOVA-800 小 型 计算 机 ， 融 有 75 兆 字 节 的 磁盘 存 贮 器 ， 终 端 为 经 过 改装 
的 配 有 键盘 的 彩色 电视 机 ， 其 主机 通过 同 轴 电 缆 与 128 台 彩色 电视 机 终 
端 相连 接 。TICCIT 系 统 主要 用 于 社会 大 学 的 数学 和 英语 教学 。 


加 拿 大 、 英 国 、 日 本 等 国 也 开展 了 CAL 的 研究 。 加 拿 大 国家 研究 
院 、 安 大 略 教育 研究 所 和 女王 大 学 等 11 所 大 联合 开展 计算 机 辅助 语言 教 
学 系统 CAN 的 研制 ， 开 发 了 数学 、 工 程 、 医 学 、 商 业 等 学 科 的 课件 
(course ware) 。 英 国 在 开放 大 学 中 推广 使 用 计算 机 辅助 教学 ， 开 放大 
学 有 280 个 学 习 中 心 ， 各 个 学 习 中 心 都 设 有 终端 ， 通 过 全 国 计 算 机 网 络 
与 该 大 学 的 计算 中 心 相 连 ， 为 学 生 解 答 各 种 问题 。 日 本 机 器 工业 促进 会 
研制 了 一 个 计算 机 辅助 教学 系统 ， 该 系统 能 同时 控制 30 个 学 习 终 端 ， 开 
设 了 计算 机 原理 、 计 算 机 语言 、 数 控 机 床 等 课程 。 





我 国 于 20 世 纪 80 年 代 开 始 研 究 计算 机 辅助 教学 系统 。 华 东 师 范 大 学 
现代 教育 技术 研究 所 研制 了 计算 机 辅助 BASIC 语 言 教学 系统 MCBBI， 通 
过 这 个 系统 学 习 BASIC 语 言 的 学 生 ， 都 能 达到 用 BASIC 语 言 独 立地 编制 
程序 的 水 平 。 此 外 ， 中 山大 学 和 西安 交通 大 学 也 研制 了 一 个 BASIC 语 言 
教学 系统 ， 中 国 科 学 技术 大 学 研制 了 一 个 PASCAL 语 言 教学 系统 ， 大 连 
工学 院 研制 了 工程 力学 解 题 模 拟 系统 ， 云 南 师范 大 学 研制 了 计算 机 辅助 
代数 解 题 系 统 。 





北京 信息 工程 学 院 研 制 成 功 2000 系 列 计算 机 辅助 教学 系统 。 这 个 系 
统 包括 了 教学 、 指 导 、 管 理 和 开发 维护 等 部 分 ， 有 BASIC 语 言 和 
PASCAL 语 言 两 门 教学 课件 ， 可 以 提供 学 生 自学 和 教师 指导 两 种 学 习 方 
式 。 此 外 ， 该 系统 还 具有 教学 管理 和 选 题 、 评 分 等 功能 。 





在 计算 机 辅助 教学 CAL 的 诸多 领域 中 ， 与 语言 学 最 为 密切 的 是 “ 计 
算 机 辅助 语言 教学 ”(Computer Assisted Language Learning, CALL) , 
在 进行 计算 机 辅助 语言 教学 CALL 的 时 候 ， 计 算 机 要 按照 人 们 事先 安排 
好 的 语言 教学 计划 进行 课堂 教学 和 辅助 课外 操练 。 前 面 介 绍 过 的 
PLATO 系 统 除 了 进行 一 般 的 计算 机 辅助 教学 之 外 ， 也 能 进行 计算 机 辅 
助 语言 教学 ，PLATO 可 以 讲授 汉语 、 英 语 、 法 语 、 俄 语 、 希 腊 语 、 拉 
本 语 、 西 班 牙 语 和 世界 语 等 八 种 语言 课程 。 斯 坦 福 大 学 的 系统 也 可 以 讲 
授 俄 语 、 德 语 等 语言 课程 ，TICCIT 系 统 也 可 以 进行 英语 教学 。 在 这 个 
时 期 ， 还 设计 了 一 些 用 于 CALL 的 教学 软件 ， 如 ECLIPSE，SEQUITUR 
等 ， 这 些 软 件 对 于 计算 机 硬件 的 要 求 不 高 ， 程 序 也 比较 容易 掌握 ， 逐 浙 
在 CALL 教 学 中 普及 开 来 。 











当时 从 事 CALL 的 一 些 专 家 ， 如 Higgins,，Tim Jones, Graham, Tony 
Williams 和 等， 他们 原来 都 是 语言 教师 ， 但 是 ， 他 们 在 实践 中 更 新 了 知 
识 ， 很 快 掌握 了 CALL 技 术 ， 成 为 了 CALL 教 学 的 开创 人 。 








CALL 是 一 种 新 型 的 语言 教学 方式 ， 是 对 于 传统 语言 教学 方式 的 具 
有 重大 意义 的 改革 。 美 国 的 语言 教学 在 第 一 次 世界 大 战 前 后 ， 主 要 采用 
传统 的 “教授 语法 加 翻译 ”的 方式 ， 培 养 读 和 写 的 能 力 。 在 第 二 次 世界 大 
战 前 后 ， 由 于 录 首 机 的 使 用 ,“ 听 说 ”教学 的 方式 应 运 而 生 ， 各 地 学 校 都 
设置 了 语言 实验 室 。 由 于 社会 语言 学 、 心 理 语言 学 、 计 算 语言 学 这 些 边 
缘 学 科 的 发 展 ， 人 们 对 于 语言 安 际 有 了 更 深 的 认识 ， 在 外 语 教学 中 更 加 
强调 人 与 人 之 间 的 语言 交际 本 领 及 其 心理 、 文 化 基础 。 在 这 种 情况 下 ， 

















计算 机 束 成 了 一 种 非常 适 合 的 语言 教学 的 培训 工具 ， 因 此 ，CALL 受 到 
了 语言 教学 工作 者 的 普遍 欢 迎 。 





CALL 一 般 可 以 分 为 四 种 类 型 : 





(讲授 型 : 计算 机 向 学 生 提 供 讲 授 的 教材 ， 学 生 通过 计算 机 显示 屏 
上 显示 的 谍 文 进行 学 习 。 


QR: 计算 机 向 学 生 提 供 各 种 练习 题 ， 学 生 即时 回答 ， 计 算 机 
做 出 评价 ， 并 诀 定 学 生 是 复习 前 一 课 的 读 文 ， 还 是 学 习 下 一 读 。 





@@ 模 拟 型 : 利用 计算 机 的 动画 、 语 声 、 图 形 显 示 、 图 表 绘 制 等 功 
能 ， 通 过 通 真 地 模拟 人 们 日 癌 生 活 的 实际 情景 ， 让 学 生 在 这 种 环境 的 刺 
油 和 诱导 下 ， 做 出 恰当 的 语言 反应 。 








讲授 型 、 操 练 型 和 模拟 型 的 计算 机 软件 都 是 “ 诬 


件 ”(courseware) 。 


工具 型 : 由 计算 机 给 语言 教师 的 教学 或 研究 工作 提供 必要 的 智力 
工具 ， 它 是 面向 教师 的 ， 而 不 是 面向 学 生 的 。 工 具 型 软件 义 可 以 分 为 两 
类 : 一 类 是 为 教师 编制 上 述 三 种 课件 提供 特殊 的 程序 设计 语言 ， 称 
为 “ 纺 关 语言 ”， 一 类 是 能 给 教师 起 智力 助手 作用 的 软件 ， 例 如 ， 帮 助教 
师 目 动 地 编制 案 引 ， 统 计 词 汇 ， 分 析 句 型 ， 拟 出 试题 ， 分 析 考 试 结果 


FY 
等 。 








由 于 运行 课件 所 形成 的 计算 机 辅助 语言 教学 环境 ， 在 教育 方面 具有 
下 面 的 优点 : 


QKE: 学 生 的 学 习 能 力 自 然 地 决定 了 课件 运行 的 速度 ， 能 力 
强 的 学 生 可 学 习 得 快 一 些 ， 能 力 差 的 学 生 可 学 习 得 慢 一 些 ， 做 到 了 “ 因 








材 施 教 ”。 


减轻 学 生 的 心理 负担 : 计算 机 总 是 而 心地、 循循善诱 地 指导 学 生 
学 习 ， 豆 励 学 生 达 到 预期 的 效果 ， 从 不 会 表露 出 任何 的 辟 和 你 素 乐 ， 这 样 
便 大 大 地 减轻 了 学 生 的 心理 负担 。 


@) 课 件 能 够 博采众长 ， 吸 收 多 位 专家 和 教师 的 经 验 。 





(便于 积累 教学 资料 和 保存 学 生 学 习 档 案 。 


工具 型 软件 的 优点 是 能 提高 教师 备 读 、 教 学 、 研 完 等 活动 的 效率 ， 
使 他 们 的 精力 集中 到 更 有 创造 性 的 方面 去 。 


CALL 课 件 的 典型 工作 过 程 如 下 : 





计算 机 把 信息 ， 如 课文 、 语 法 说 明 等 ， 通 过 计算 机 显示 屏 设备 呈 
现在 学 生 面 前 ， 让 他 们 了 阅读、 学 习 。 


马 计算 机 根据 显示 的 教材 ， 癌 学 生 提 出 有 关 问 题 ， 让 学 生 作 练 习 ， 
并 等 符 学 生 回答 。 


@ 学 生 使 用 键盘 等 输入 设备 回答 问题 ， 计 算 机 对 学 生 的 答案 做 
出 “对 "或 < 错 "等 判断 。 


由 如 果 答 案 为 " 错 ”， 计 算 机 指示 学 生 重 做 ， 或 者 重新 学 习 原 来 的 课 
程 ， 如 果 答 案 为 "对 ”， 计 算 机 会 对 学 生 给 予 茶 种 玛 励 ， 并 转 入 下 一 步 的 
联系 或 学 习 新 的 谍 文 。 


体现 上 述 功能 的 CALL 课 件 ， 和 是 语言 学 家 、 语 言 教师 、 心 理学 家 和 
计算 机 科学 家 密切 合作 的 产物 。 语 言 学 家 首先 根据 学 科 内 容 提 出 茶 一 课 


题 的 教材 ， 再 由 语言 教师 指出 学 习 重 点 和 教学 方法 ， 心 理学 家 则 制定 纺 
写 教学 方案 和 评定 学 习 效 果 的 原则 ， 人 然后 由 计算 机 科学 家 把 上 述 材料 纺 
制 成 课件 ， 经 过 反复 演示 、 修 改 ， 成 为 投放 技术 市 场 的 计件 。 


CALL 所 需要 的 技术 是 广泛 而 多 样 的 ， 计 算 机 和 信息 处 理 的 许多 技 
术 都 可 以 在 CALL 中 大 显 喘 手 。 计 算 机 图 象 和 动画 已 经 成 了 课件 的 重要 
组 成 部 分 ， 言 语 合成 促使 计算 机 逼真 地 模仿 教师 的 声音 ， 语 音 识 别 则 使 
学 生 的 口 答 信息 有 可 能 通过 计算 机 进行 处 理 。 








多 媒体 (multimedia) 技术 是 计算 机 技术 关注 的 热点 之 一 ， 所 谓 多 
媒体 技术 ， 就 是 交互 式 综合 处 理 文本 、 图 形 、 图 像 、 声 音 等 多 种 媒体 信 
息 ， 使 多 种 信息 之 间 建 立 逻 辑 连接 ， 集 成 为 一 个 系统 ， 把 计算 机 技术 、 
声 像 技 术 和 通讯 技术 融 为 一 体 。 多 媒体 技术 能 使 信息 传播 者 和 接受 者 之 
间 实 时 地 进行 交换 ， 它 的 集成 性 高 ， 交 互 性 强 。 由 于 多 媒体 的 数据 类 型 
不 仅 包 括 文 本 ， 而 且 还 包括 仿真 图 像 、 立 体 声音 响 、 运 动 视频 图 像 等 人 
类 最 习惯 的 视听 媒体 信息 ， 所 以 ， 多 媒体 技术 为 CALL 开 辟 了 一 个 新 的 
天 地 。 在 CALL 教 学 中 ， 为 了 便于 学 生 直 接地 向 计算 机 输入 答案 或 信 
尽 ， 可 以 使 用 “触摸 屏 ” 设 备 ， 利 用 手指 在 显示 屏 上 的 触感 而 输入 信息 。 
计算 机 与 光盘 CD-ROM 的 结合 ， 使 得 CALL 所 需要 的 文字 、 语 音 与 图 像 
可 以 存 贮 在 同一 介质 里 ， 应 用 起 来 极为 方便 。 数 据 库 的 发 展 ， 使 得 课 
件 、 智 能 助手 等 的 研制 和 利用 有 了 更 好 的 软件 工具 。 一 些 闭 名 的 CALL 
课件 ， 如 欧洲 的 LINGUA、 澳 大 利 亚 的 CUTSD 等 ， 都 以 多 媒体 CD-ROM 
的 形式 作为 商品 在 世界 各 地 出 售 。 








CALL 充 分 地 利用 了 计算 机 科学 、 信 息 技术 、 心 理学 和 自然 语言 处 
理 的 新 成 果 ， 进 一 步 提高 了 软件 的 性 能 。 许 多 自然 语言 处 理 的 方法 和 技 
术 都 可 以 在 CALL 中 找到 上 自己 的 用 途 。 例 如 ， 将 教师 的 智能 助手 逐步 扩 
充 为 一 个 能 够 理解 自然 语言 的 系统 ， 计 算 机 可 以 自动 命题 ， 可 以 对 学 生 











的 回答 进行 简单 的 目 动 句法 分 析 ， 可 以 通过 语音 识别 来 理解 学 生 用 目 然 
语言 口头 形式 做 出 的 回答 ， 并 通过 语音 合成 向 学 生 提 供 评分 结果 ， 等 
Age 

a o 


传统 CALL 的 教材 和 各 种 资料 ， 或 者 存储 在 计算 机 的 数据 库 里 面 ， 

或 者 以 课件 的 形式 存储 CD-ROM 里 ， 在 教学 中 ， 语 言 学 习 者 与 计算 机 的 
交互 ， 主 要 通过 查询 数据 库 或 者 CD-ROM 来 进行 ， 数 据 库 或 CD-ROM 本 
刁 只 能 存储 数据 ， 进 行 查 询 的 时 候 ， 一 般 应 用 简单 的 模式 匹配 技术 就 可 
以 得 到 查询 的 结果 ， 尽 管 革 些 CALL 系 统 也 使 用 了 自然 语言 处 理 中 的 自 
动 分 析 技 术 ， 但 是 ， 自 动 分析 的 针对 性 不 强 ， 没 有 充分 注意 提高 学 习 者 
对 于 偏 误 的 意识 ， 而 且 ，CALL 教 学 网 络 基本 上 都 是 局 域 网 络 ， 网 络 之 
间 只 能 在 局 部 范围 内 链接 ， 链 接 的 范围 受到 限制 ， 更 不 能 在 非常 广阔 的 
范围 甚至 在 全 世界 范围 内 联网 。 所 以 ， 这 样 的 CALL 的 智能 
(Intelligent? 不 强 。 




















如 果 CALL 系 统 采 用 上 自然 语言 处 理 的 技术 来 自动 地 分 析 句 子 ， 对 于 
各 种 提问 和 回答 的 句子 有 和 针对 性 地 进行 自动 分 析 ， 指 出 学 习 者 的 偏 误 ， 
帮助 他 们 纠正 这 样 的 偏 误 ， 并且 在 CALL 中 使 用 互联 网 WWW， 针 对 不 
同学 习 者 的 特点 ， 通 过 WWW 与 语言 学 习 者 进行 个 性 化 的 自由 交互 ， 进 
一 步 使 用 人 工 智能 (Artificial Intelligent) 技术 ， 那 么 ， 这 样 的 CALL 系 
统 就 具备 了 较 高 的 智能 ， 就 可 以 把 它 叫 做 “智能 计算 机 辅助 语言 教学 系 
4,” (ICALL) 。 














CALL 把 语言 教学 与 计算 机 结合 起 来 ，ICALL 又 进一步 把 语言 教学 
与 人 工 智 能 技术 结合 起 来 。 这 些 情况 清楚 地 说 明 ， 语 言 教 学 这 个 古老 的 
学 科 正 在 走向 现代 化 ， 语 言 教 学 已 经 与 当代 最 先进 的 计算 机 技术 和 人 工 
智能 技术 结合 起 来 。 这 是 语言 教学 中 具有 历史 意义 的 重大 变化 ， 而 这 样 
的 变化 ， 是 科学 家 们 长 期 艰苦 探索 的 结 

















在 1956 年 夏天 ， 美 国 计 算 机 科学 界 、 信 息 工 程 界 的 几 位 顶尖 级 学 者 
John McCarthy, Marvin Minsky, Claude Shannon 和 Nathaniel Rochester 等 
汇聚 到 一 起 ， 组 成 了 一 个 为 期 两 个 月 的 研究 组 ， 讨 论 关 于 他 们 称 之 
为 “人 工 智 能 ”(Artificial Intelligence， 简 称 AI) 的 问题 ， 从 此 , “ATEH 
能 ”这 个 新 学 科 便 诞生 了 。 尽 管 有 少数 的 AI 研究 者 痢 重 于 研究 随机 算法 
和 统计 算法 (包括 概率 模型 和 神经 网 络 ) ， 但 是 大 多 数 的 AI 研究 者 着 重 
研究 推理 和 逻辑 问题 。 典 型 的 例子 是 Newell 和 Simon 关 于 “ 远 辑 理论 
Z” (Logic Theorist) 和 “通用 问题 解答 器 ”(General Problem Solver) 的 
研究 工作 。 这 些 简单 的 系统 把 模式 匹配 和 关键 词 搜索 与 简单 试探 的 方法 
结合 起 来 进行 推理 和 自动 问答 ， 它 们 都 只 能 在 某 一 个 领域 内 使 用 。 在 20 
世纪 60 年 代 末 期 ， 学 者 们 又 研制 了 更 多 的 形式 逻辑 系统 。 人 工 智 能 的 一 
个 重要 研究 方 辐 是 目 然 语言 理解 (Natural Language Understanding, fij 
称 NLU) 。 由 于 人 类 的 智能 活动 与 语言 有 密切 的 关系 ， 语 言 往往 成 为 观 
察 人 类 智能 活动 的 窗口 ， 这 就 为 在 CALL 中 导入 人 工 智 能 的 方法 提供 了 
有 利 的 条 件 ，ICALL 的 研究 便 成 为 理所当然 的 了 。 











ICALL 与 CALL 的 差别 主要 体现 在 两 个 方面 : 


第 一 ，ICALL 使 用 的 句子 的 自动 分 析 技 术 ， 能 够 针对 第 二 语言 学 习 
者 的 特点 ， 对 于 他 们 造 出 的 句子 进行 自动 分 析 ， 给 出 句子 的 自动 分 析 结 
果 ， 并 指出 偏 误 的 所 在 ， 从 而 提高 第 二 语言 学 习 者 对 于 学 习 中 偏 误 的 意 
识 ， 自 觉 地 纠正 偏 误 ; 而 CALL 主 要 使 用 数据 库 或 CD-ROM 的 存储 技术 
来 存储 CALL 的 信息 ， 并 使 用 简单 的 模式 匹配 技术 来 判别 学 习 者 的 回答 
是 否 正确 ， 尽 管 有 一 些 CALL 系 统 也 使 用 了 自然 语言 处 理 的 自动 分 析 技 
术 来 进行 简单 的 自动 句法 分 析 ， 但 是 ， 对 于 第 二 语言 学 习 者 在 学 习 中 偏 
误 注 意 不 够 ， 针 对 性 不 强 。 














第 二 ，ICALL 使 用 互联 网 (Web) 在 非常 广阔 的 范围 内 甚至 在 世界 





各 地 进行 联网 ， 广 泛 使 用 超 文本 (Hypertext) 技术 和 超 链接 
(Hyperlink) 技术 ， 而 CALL 的 网 络 一 般 在 局 部 范围 内 链接 ， 可 以 使 用 
多 媒体 技术 ， 但 是 ， 一 般 没 有 使 用 超 文 本 技术 和 超 链接 技术 。 


因此 ， 不 论 是 CALL 还 是 ICALL， 它 们 与 自然 语言 的 自动 分 析 技 术 
都 有 着 非常 密切 的 关系 ， 而 ICALL 是 使 用 Web 来 进行 教学 ， 与 Web 有 密 
切 关 系 。 








我 国 计 算 机 辅助 语言 教学 的 研究 近年 来 已 有 了 很 大 的 进展 。 


华东 师范 大 学 是 我 国 最 早 研 究 计算 机 辅助 语言 教学 的 单位 之 一 ， 他 
们 先后 研制 成 作为 英语 教师 和 研究 者 助手 的 智能 软件 ETRA 系 统 以 及 作 
为 德语 教师 和 研究 者 助手 的 智能 软件 GERTRA 系 统 。 北 京 双语 教育 电子 
有 限 公司 研制 了 计算 机 辅助 英语 教学 软件 “更 上 英语 学 校 >， 利 用 多 媒体 
技术 ， 成 功 地 模拟 了 学 习 英 语 的 有 声 环境 ， 为 英语 学 习 者 提供 了 方便 。 
北京 得 力 软 件 研 究 所 研制 了 一 套 家 庭 教育 系列 软件 ， 可 以 用 计算 机 辅助 
学 习 英 语 、 语 文 、 数 学 、 生 理 卫 生 、 物 理 、 化 学 等 课程 。 北 京 语言 大 学 
根据 对 外 汉语 教学 的 迫切 需要 ， 开 发 了 智能 型 计算 机 辅助 汉语 教学 系 
统 ， 该 系统 由 知识 库 、 学 生 模 型 模块 、 教 学 决策 模块 、 汉 语 语 首 合 成 器 
及 语音 库 等 四 个 模块 组 成 ， 并 已 开始 使 用 ， 他 们 还 开发 的 外 国学 生 汉语 
中 介 语 语料库 ， 分 析 外 国学 生 学 习 汉 语 的 仿 误 ， 从 而 提高 对 外 汉语 教学 
的 质量 。 














计算 机 辅助 教学 代表 着 一 种 新 的 教育 方式 ， 它 具有 很 强 的 个 别 化 孝 
学 功能 ， 可 同时 对 一 批 学 生 因材施教 ， 最 能 适应 以 学 生 为 中 心 的 开放 式 
教学 。 随 着 科学 技术 的 进一步 发 展 ， 以 计算 机 为 主体 ， 配 以 光纤 通讯 和 
卫星 传播 ， 可 组 成 计算 机 辅助 教学 网 络 ， 使 众多 的 学 习 者 不 仅 可 以 共享 
网 络 中 所 有 的 教育 资源 ， 而 且 还 可 以 在 家 里 用 微机 采用 通讯 的 方式 进行 


学 习 ， 这 必 将 使 教育 发 生 巨 大 的 变化 ， 对 于 普及 教育 大 有 好 处 。 





21 世 纪 是 信息 化 和 网 络 化 的 时 代 。 随 着 互联 网 的 日 益 普 及 , “电子 
学 习 ”(E-learning) 方兴未艾 ， 教 育 理念 也 随 之 发 生 了 重大 变 单 ， 教 育 
网 络 化 已 成 为 一 种 趋势 ， 各 种 学 习 网 站 和 网 络 课程 如 雨后春笋 般 消 现 ， 
利用 网 络 提 高 自己 的 知识 水 平 ， 优 化 自己 的 知识 结构 的 人 数 与 日 俱 增 ， 
网 络 已 成 为 终身 学 习 的 便捷 途径 。 在 网 络 上 的 计算 机 辅助 语言 教学 有 者 
广阔 的 发 展 前 景 。 








第 二 节 ”计算 机 辅助 语言 测试 


在 语言 测试 中 使 用 计算 机 出 题 、 考 试 、 评 分 、 进 行 试卷 分 析 及 成 绩 
有 反馈。 叫做 计算 机 辅助 语言 测试 (Computer Assisted Language Test, [Hj 
称 CALT) 。 进 入 21 世 纪 以 后 ， 随 着 网 络 的 日 益 普 及 ， 利 用 网 络 进行 测 
试 的 优越 性 越 来 越 明 显 ， 语 言 测 试 研 究 者 们 的 兴趣 逐渐 转 同 了 利用 网 络 
进行 语言 测试 的 尝试 。 计 算 机 辅助 语言 测试 可 简称 为 “语言 自动 评 
Jj” (Automatic Language Test) 或 “自动 评测 ”(Automatic Test) 。 





目 动 评测 一 般 分 为 客观 题 上 自动 测 评 和 主观 题 自 动 测评 两 种 。 


客观 题 一 般 都 是 有 现成 答案 的 多 项 选择 题 ， 测 试 时 只 要 求学 生 选 出 
正确 选项 即 可 。 这 种 题 型 的 自动 测评 对 于 计算 机 而 言 没 有 技术 上 的 困 
难 ， 很 容易 实现 。 





主观 题 叉 分 为 两 种 ， 一 种 是 用 于 考 碍 学 生 知识 掌握 情况 的 主观 题 ， 
男 一 种 是 用 于 考查 学 生 语言 掌握 情况 的 主观 题 。 








这 两 种 主观 题 的 区 别 是 : 用 于 考查 学 生 知识 掌握 情况 的 主观 题 的 测 
评 内 容 是 知识 体系 中 的 知识 点 及 其 相互 关系 ， 所 使 用 的 语言 并 不 是 测评 
的 对 象 ， 而 用 于 考 碍 学 生 语 言 掌握 情况 的 主观 题 的 训 评 内 容 是 语言 本 
号 ， 看 其 表达 得 是 否 正 确 、 通 顺 ， 学 生 所 使 用 的 语言 同时 也 是 测评 的 对 
象 。 从 测评 的 角 拔 来 讲 ， 后 者 对 上 自动 测评 的 精度 要 求 更 高 。 








任何 语言 测试 试卷 一 般 都 由 客观 题 和 主观 题 两 种 题 型 组 成 ， 这 样 便 
于 更 加 准确 地 测评 学 生 实际 的 语言 水 平 ， 避 和 免 由 于 猜测 而 造成 的 测试 信 
度 的 降低 。 





但 是 ， 由 于 主观 题 的 自动 测评 涉及 许多 领域 ， 有 许多 难题 没有 解 
决 ， 国 内 许多 大 规模 考试 都 采取 人 工 批阅 主观 题 的 方法 。 这 种 做 法 不 但 
需要 投入 大 量 的 时 间 和 人 力 ， 而 且 评 判 的 标准 也 不 容易 统一 ， 影 响 测 试 
的 信 度 。 在 这 种 情况 下 ， 主 观 题 的 自动 测评 研究 对 于 大 规模 标准 化 考试 
《如 大 学 英语 四 、 六 级 考试 ) 中 主观 题 的 自动 评分 就 显得 十 分 迫切 。 








目 从 出 现 学 习 和 教学 活动 以 来 ， 测 试 就 一 同 诞 生 了 。 语 言 测 试 是 随 
着 外 语 教学 而 出 现 的 。 随 着 测试 实践 的 发 展 和 训 试 理论 研究 的 深入 ， 逐 
渐 形 成 了 “测试 学 ”这 门 学 科 。 测 试 学 家 们 根据 测试 的 形式 和 性 质 等 ， 对 
测试 进行 了 分 类 ， 以 明确 人 们 对 测试 的 认识 ， 以 便 更 好 地 指导 测试 和 教 


从 宏观 上 说 ， 测 试 可 分 为 客观 测试 和 主观 测试 两 种 。 


客观 测试 又 称 为 “选择 回答 ”(Selective response) 、“ 非 构建 性 回 
答 ”(Non-constructed response) 、“ 接 受 性 回答 题目 ”(Receptive- 
response items) 等 。 客 观测 试 时 题目 的 答案 是 固定 的 ， 不 允许 考生 目 由 
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已 准备 好 了 ， 考 试 时 考生 只 需 选 择 某 个 答案 即 可 。 多 项 选择 题 、 判 断 正 
误 题 、 匹 配 题 、 填 空 题 等 都 属于 客观 测试 。 





主观 测试 的 题目 需要 考生 用 文字 来 回答 ， 又 称 为 “ 产 出 性 回答 题 
H” (Productive-response items) 、“ 构 建 性 回答 ”(Constructed 
response) 、“ 生 成 回答 ”(Generated response) 、“ 开 放 回 答 ”(Open- 
ended, Free text) 等 。 主 观测 试 又 分 为 “ 受 限 的 主观 回答 ”(Limited 
constructed response) 和 “扩展 的 主观 回答 ”(Extended constructed 
response) 两 种 。 前 者 是 指 答题 时 必须 用 一 个 词 或 短语 来 回答 ， 而 后 者 
则 指 答题 时 不 受 任 何 限制 ， 且 体 用 词 可 以 不 固定 ， 只 要 将 关键 词 或 关键 


言 息 包括 在 答案 内 即 可 ， 如 简 答 题 、 作 文 题 等 。 


根据 测试 实施 时 的 风险 ， 如 测试 时 考生 作 次 可 能 性 的 大 小 、 题 目 被 
泄漏 可 能 性 的 大 小 每 因素 ， 测 试 被 分 为 “ 低 风 险 测 试 ”(Low-stake 
assessment) 、“ 中 风险 测试 ”(Medium-stake assessment) 和 “高 风险 测 
试 ”(High-stake assessment) 三 种 。 


低 风 险 测 试 是 指 考生 没有 作 整 动机 的 测试 。 这 种 测试 只 为 学 习 服 
务 ， 即 给 语言 学 习 者 提供 反馈 信息 ， 告 诉 他 们 距离 学 习 目 标 还 有 多 远 ， 
如 小 测验 、 自 测 等 。 














中 风险 测试 是 指 考生 可 能 出 现 作 痊 动 机 的 测试 。 这 种 测试 对 考生 有 
一 定 的 影响 ， 但 不 会 有 深远 的 、 可 改变 考生 命运 的 影响 ， 如 语言 水 平分 
级 考试 、 期 中 、 期 末 考 试 、 远 程 教育 课程 考试 等 。 





高 风险 测试 则 是 指 可 改变 考生 命运 的 考试 ， 如 入 学 考试 、 证 书 考 
试 、 职 业 考试 等 。 


众所周知 ， 最 初 的 测试 是 通过 纸 和 笔 进行 的 ， 称 为 传统 测试 。 随 着 
计算 机 的 发 明 及 个 人 计算 机 的 普及 ， 出 现 了 通过 计算 机 实施 的 测试 ， 
即 “ 基 于 计算 机 的 测试 ”(Computer-based testing， 简 称 CBT) 。 基 于 计 
算 机 的 测试 又 叫做 “计算 机 管理 的 测试 ”(Computer-managed 
testing) , “计算 机 增强 的 测试 ”(Computer-enhanced testing) ,“ 计 算 机 
辅助 的 测试 ”(Computer-assisted testing) 等 。 随 着 研究 的 深入 ， 人 们 不 
再 满足 于 只 让 计算 机 起 一 个 测试 媒介 的 作用 ， 还 利用 了 计算 机 的 智能 化 
功能 ， 推 出 了 “计算 机 自 适应 测试 ”(Computer-adaptive testing， 人 简称 
CAT) 。 计 算 机 自 适 应 测试 可 以 根据 考生 的 具体 答题 情况 ， 调 整 测试 难 
度 ， 一 旦 测 出 考生 水 平 ， 考 试 立 刻 终止 。 这 种 测试 在 很 大 程度 上 不 但 市 


约 了 测试 时 间 和 测试 资源 ， 而 且 使 测试 更 加 入 性 化 ， 因 为 考生 不 会 因为 
答 不 出 茶 些 很 难 的 测试 题 而 感到 难堪 ， 也 不 会 因为 测试 题 太 多 或 太 容易 
而 浪费 时 间 。 目 前 采用 CAT 进 行 的 语言 测试 题 有 词汇 题 、 语 法 题 、 阅 读 
理解 题 、 听 力 理解 题 等 ， 这 些 试题 的 出 题 形式 都 是 多 项 选择 题 。 


进入 20 世 纪 90 年 代 后 ， 随 着 互联 网 的 普及 ， 语 言 考 试 也 可 以 在 互联 
网 上 进行 ， 出 现 了 “基于 网 络 的 测试 ”(Web-based testing, fRIEKFWBTO 
或 “基于 互联 网 的 测试 ”(Internet-based testing， 简 称 IBT) ， 基 于 网 络 的 
测试 或 基于 互联 网 的 测试 实质 上 是 “基于 计算 机 的 测试 ”〈CBT) 的 网 上 
BEL, 














罗 维 尔 (Roever) 将 “基于 网 络 的 测试 ?定义 为 : “通过 互联 网 实现 
的 基于 计算 机 的 测试 ?”。 他 还 把 * 基 于 网 络 的 测试 ?分 为 “ 低 技术 测 
id” Clow-tech test) 和 “高 技术 测试 ”(high-tech test) 两 种 。 在 低 技术 测 
试 时 ， 测 试 完全 在 考生 个 人 计算 机 上 进行 ， 服务 器 只 保存 试题 、 提 供 下 
载 和 存储 答案 等 操作 。 这 种 测试 不 需要 服务 器 端 进行 编程 ， 成 本 低廉 ， 
考试 的 试题 量 不 大 ， 不 需要 考生 对 做 题 结果 进行 信息 有 反馈， 考试 设计 者 
不 依赖 软件 工程 师 。 在 高 技术 测试 时 ， 测 试 对 于 服务 器 提供 的 难度 不 同 
的 考题 的 依赖 性 很 强 ， 测 试 系统 可 根据 考生 的 具体 答题 情况 调节 考题 难 
度 ， 搜 集 、 分 析 考 生 的 答案 。 这 种 测试 适合 于 考试 人 数 多 ， 题 库 量 大 ， 
有 计算 机 专家 参与 的 情况 。 它 实质 上 是 计算 机 上 自 适应 测试 的 网 络 化 ， 所 
以 有 叫做 “基于 网 络 的 目 适 应 考试 ”(Web-adaptive ”test， 简 称 WAT) 。 
一 个 简单 的 “基于 网 络 的 自 适 应 考试 ?由 一 套 难 度 递增 的 试题 组 成 ， 测 试 
开始 时 试题 难度 为 中 等 水 平 ， 然 后 视 考 生 答 题 情况 的 好 坏 提高 或 降低 难 
度 ， 当 考生 答对 率 不 足 50% 时 ， 考 试 就 自动 中 止 。 











此 外 ， 测 试 还 可 以 按 其 目的 分 为 “诊断 性 测试 ”(Diagnostic 
test) ~ “KFWA” (Proficiency test) FRM” (Achievement 





test) ; 也 可 以 按 参 加 测试 的 人 数 和 规模 分 为 “大 规模 测试 ”(Large-scale 
test) 、“ 中 等 规模 测试 ”(Medium-scale test) 和 “小 规模 测试 ”(Small- 


scale test) 等 。 


早 在 1935 年 ， 在 第 一 人 台电 子 计算 机 ENIAC 还 没有 研制 成 功 的 时 候 ， 
IBM 公 司 就 研制 出 805 型 模型 机 来 进行 语言 测试 ， 这 是 目前 利用 机 器 进 
行 语言 测试 的 最 早 记 录 ，805 型 模型 机 是 第 一 个 可 以 使 用 机 器 批改 客观 
题 〈 多 项 选择 题 ) 的 工具 。 这 个 模型 机 在 美国 引起 了 广泛 的 关注 ， 得 到 
了 普遍 的 使 用 ， 大 大 地 降低 了 人 工 阅 卷 的 工作 量 ， 节 省 了 语言 测试 的 费 
A, 
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做 “全 面 行为 分 析 ”(General performance analysis) 系统 ， 这 个 系统 可 用 
于 测评 学 生 的 法 语 课程 学 习 情 况 ， 可 记录 学 生 一 个 学 期 的 学 习 情 况 。 当 
学 生 要 了 解 学 习 情 况 时 ， 该 系统 可 随时 提供 各 种 信息 ， 如 所 学 语法 项 目 
的 数量 以 及 所 得 到 的 总 分 等 。 此 外 ， 学 生还 可 以 知道 不 及 格 的 具体 语法 
项 是 哪些 。 











1966 年 ， 美 国 杜 克 大 学 的 派 基 (Ellis Batten Page) 开发 了 评价 文章 
写作 质量 的 “文章 分 级 ”(Project Essay Grade) 系统 ， 简 称 PEG。 派 基 认 
为 ， 一 个 人 的 写作 风格 有 其 内 在 的 特性 ， 可 以 用 “trins” 进 行 描述 ， 并 可 
对 其 进行 量化 ， 量 化 后 的 结果 叫 “"proxes”。PEG 的 评分 达到 了 较 高 的 准 
确 率 ， 但 它 只 是 依靠 统计 方法 来 评定 文章 的 质量 ， 没 有 使 用 自然 语言 处 
理 的 深层 分 析 技 术 ， 也 没有 考虑 到 词汇 的 语义 。 

















1984 年 美国 评估 系统 公司 (Assessment Systems Corporation) 推出 
了 MicroCAT 系 统 。1999 年 又 推出 了 更 为 先进 的 FastTEST _ CAT 系统。 这 
些 系统 的 所 有 题目 都 有 难度 、 区 别 度 和 猜测 参数 标注 ， 还 有 题目 的 内 





容 、 上 下 文 等 信息 。 所 有 题目 和 题目 水 平等 级 信息 都 存储 在 本 地 计算 机 
或 本 地 网 络 的 题库 中 。 


1985 年 ， 美 国 杨 伯 翰 大 学 的 拉 莘 〈Larson) PAGER (Madsen) JF 
发 了 法 语 、 德 语 和 西班牙 语 的 CAT 工 具 ， 用 于 大 学 的 分 级 测试 。 


英国 剑桥 大 学 地 方 考试 集团 (The University of Cambridge Local 
Examinations Syndicate， 简 称 UCLES) 开发 了 用 于 学 术 和 商业 不 同 目的 
的 各 种 语言 (秽语 、 法 语 、 德 语 、 西 班 牙 语 ) 的 CAT 测 试 工具 。 


欧盟 理事 会 (the Council of Europe Union) 资助 了 可 测试 丹麦 语 、 
傈 兰 语 、 英 语 、 芬 兰 语 、 法 语 、 德 语 、 希 腊 语 、 冰 岛 语 、 爱 尔 兰 语 、 
大 利 语 、 挪 威 语 、 葡 稀 牙 语 、 西 班 牙 语 、 瑞 典 语 等 14 种 欧洲 语言 的 
DIALANG 项 目 。 通 过 DIALANG， 考 生 可 以 了 解 自己 的 词汇 、 语 法 、 写 
作 、 疯 读 、 听 力 的 水 平 。 考 生还 可 以 自己 选择 他 们 想 测试 语言 的 等 级 ， 
系统 通过 提供 词汇 测试 来 完成 语言 能 力 的 测评 ， 所 有 题目 都 可 以 通过 测 
试 的 进程 随时 进行 调整 。DIALANG 还 可 给 考生 提供 如 何 提高 语言 水 平 
的 反馈 意见 。 





Ell 





19974, Ordinate Corporation 公 司 开 发 了 PhonePass 系 统 ， 用 于 测试 
母语 为 非 英 语 人 士 的 英语 听力 和 英语 口语 水 平 。 测 试 仅 需 10 分 钟 ， 
PhonePass 系 统 包括 大 声明 读 句 子 、 重 复句 子 、 回 答 简短 问题 、 造 句 和 
回答 开放 题 等 5 项 内 容 ， 还 可 以 通过 电话 测试 口语 水 平 。 计 算 机 可 以 利 
用 统计 模型 把 说 话 人 说 的 某 个 词 的 声音 与 数据 库 中 北美 地 区 英语 为 本 族 
语 的 人 的 发 音 进 行 比 较 。 测 试 结果 显示 ，PhonePass 与 人 工 测试 结果 的 
相关 系数 为 0.93， 在 某 些 情况 下 ，PhonePass 测 试 的 结果 甚至 比 人 工 测试 
的 结果 还 要 准确 。 





成 立 于 1947 年 的 美国 教育 考试 服务 中 心 (Educational Testing 
Service， 人 简称 ETS) 从 成 立 之 日 起 就 致力 于 英语 作文 计算 机 评阅 系统 的 
研究 。 经 过 多 年 的 研制 ， 推 出 了 可 以 批改 学 生 喘 语 作文 的 “电子 打分 ? 系 
统 ， 叫 做 E-rater。 





E-rater 可 分 别 在 全 文 和 文中 的 单个 论点 两 个 层次 上 对 学 生 提 交 的 作 
文 与 训练 所 用 作文 的 词汇 进行 比较 ， 计 算 其 相似 度 ， 并 根据 计算 结果 判 
上 条 学 生 作文 在 词汇 运用 方面 所 处 的 分 数 档次 。1999 年 该 系统 正式 投入 使 
用 ， 不 仅 可 用 于 美国 国内 著名 的 高 风险 大 规模 考试 ， 如 
GMAT (Graduate Management Admission Test) 和 GRE (Graduate 
Record Examinations) 两 个 考试 的 写作 题 批 改 中 ， 而 且 还 可 用 于 托福 考 
iX (Test of English as Foreign Languages, faj#KTOEFL) 的 写作 题 批 
改 ， 并 于 1998 年 在 美国 本 土 及 许多 其 他 国家 推出 了 基于 计算 机 的 托福 考 
试 。 仅 在 1999 年 的 GMAT 考 试 中 ，E-rater 就 成 功 批改 了 750 000 份 作 
文 ， 与 人 工 批改 的 一 致 性 高 达 97%。 














E-rater 采 用 整体 评分 策略 ， 从 写作 风格 、 修 辞 等 角度 整体 上 对 作文 
进行 评判 ， 不 存在 正确 或 者 错误 答案 ， 同 时 该 系统 需要 大 量 的 训练 数据 
以 建立 评分 模型 。 但 是 ， 对 于 那些 需要 判断 答案 内 容 是 否 正 确 并 给 出 具 
体 分 数 的 目 动 批改 类 问题 ，E-rater 显 得 无 能 为 力 。 





在 成 功 开发 和 广泛 使 用 E-rater 的 基础 上 ， 美 国教 育 考试 服务 中 心 的 
研究 人 员 还 开发 了 基于 内 容 和 限定 领域 的 自动 评分 系统 叫做 C- 
rater (Concept-rater 的 缩写 ) ， 用 于 短文 回答 问题 题 型 的 自动 测评 。 该 
系统 目前 只 用 于 心理 学 和 生物 学 两 门 学 科 的 短文 回答 问题 的 自动 评分 。 











Be BRD SAA (University of Portsmouth) 研制 了 专门 用 于 非 多 
项 选择 题 和 短文 回答 问题 的 自动 测评 系统 ， 叫 做 The Automated Text 


Marker， 简 称 ATM。ATM 系 统 可 以 对 用 自然 语言 书写 的 答案 内 容 进行 
评测 ， 并 且 能 够 用 于 各 种 具体 学 科 上 。 





英国 利物浦 大 学 CUniversity of Liverpool) 开发 了 AutoMark 上 自动 评 
分 系统 ， 用 于 短文 回答 问题 的 评分 。1999 年 该 系统 正式 用 于 全 英国 11 岁 
小 学 生 的 自然 科学 课程 测试 中 。 访 自然 科学 课程 测试 属 高 风险 测试 ， 自 
1995 年 以 来 ， 全 英国 每 年 都 有 50 万 名 11 到 14 岁 的 学 生 参 加 该 考试 。 这 样 
有 影响 的 高 风险 考试 采用 了 这 个 机 器 评分 系统 ， 说 明 AutoMark 上 自动 评分 
系统 的 性 能 已 完全 达到 了 实用 的 要 求 。 











由 庆 文 英语 中 心 开 发 的 天文 英语 水 平 测 试 系统 (Longman English 
Assessment) 是 一 个 低 风 险 的 “计算 机 自 适 应 测试 ?系统 ， 它 通过 让 考生 
回答 诸如 “你 为 什么 学 英语 ? ”等 问题 ， 来 了 解 考生 是 出 于 了 商业 目的 ， 还 
是 出 于 一 般 目 的 来 参加 测试 ， 以 发 现 其 感 兴趣 的 内 容 ， 然 后 给 出 词汇 和 
语法 题 日 。 系 统 可 根据 考生 回答 的 情况 ， 推 荐 初级 、 中 级 、 蜗 级 作为 下 
一 级 的 测试 水 平 。 考 试 时 间 仅 15 分 钟 。 而 该 中 心 开 发 的 朗 文 吴语 交互 系 
Zi (Longman English Interactive〉， 则 把 诊断 性 测试 与 成 就 性 测试 整合 
在 一 起 。Longman English Interactive 2003 版 在 测验 和 考试 中 还 包含 录像 
内 容 。 








目前 ， 利 用 计算 机 进行 口语 测试 以 及 交互 式 测试 的 探索 已 经 开始 。 
应 用 语言 学 中 心 推 出 的 “计算 机 口语 能 力 面 试 系统 ”(Computerized Oral 
Proficiency Interview) 以 及 随后 的 “模拟 口语 能 力 面 试 系统 ”(Simulated 
Oral Proficiency Interview) 等 都 是 最 先进 的 英语 口语 计算 机 交互 式 考 试 
系统 。 


其 他 各 种 类 型 的 “计算 机 目 适 应 测试 ”系统 还 有 很 多 。 例 如 ， 由 国防 
语言 研究 所 (Defense Language Institute) 开发 并 实施 的 英语 理解 水 平 测 


iX (English Comprehension Level Test) ; 由 商业 英语 测试 服务 处 (The 
Business Language Testing Service) 研制 的 ACT ESL 评 测 (ACT ESL 
Placement Test) ; 由 美国 教育 考试 服务 中 心 研制 的 基于 计算 机 的 
TOEFL 考 试 (the Computer-based TOEFL) 中 的 “结构 与 写作 表达 评 
Wl” (The Structure and Written Expression Section) 以 及 听力 评测 (the 
Listening Section) ; 由 COMPASS/ESL 研 制 的 “COMPASS 电 子 写 
作 ”(COMPASS e-Write) 系统 等 。 


总 之 ，“ 基 于 计算 机 的 测试 "和 “计算 机 自 适应 测试 "的 各 种 语言 测试 
系统 已 从 最 初 的 只 限于 客观 题 的 测评 ， 发 展 到 了 主观 题 的 测评 ， 从 小 规 
模 、 试 验 性 的 低 风险 测试 ， 发 展 到 了 大 规模 的 高 风险 测试 。 





Ordinate Corporation 公司 开发 了 自动 口语 测评 系统 PhonePass。 该 系 
统 利用 语音 识别 技术 来 测评 学 生 在 重复 发 某 个 词 的 音 、 语 音 语 调 、 疝 读 
流利 程度 、 重 复 流 利 程度 等 方面 的 精确 性 。PhonePass 系 统 还 设计 了 一 
种 算法 ， 可 以 从 说 各 种 英语 地 区 方言 和 社会 方言 的 英语 本 族 语 人 的 大 规 
模 口 语 语料库 中 获取 参数 ， 匹 配 评分 。 





可 见 ， 目 前 利用 计算 机 自动 测评 英语 主观 题 的 技术 已 经 相当 成 熟 
了 ， 并 且 已 经 走向 实用 化 了 。 





互联 网 为 语言 测试 实现 网 络 化 创造 了 很 好 的 条 件 。 从 目前 的 报道 来 
看 ， 多 项 选择 (multiple choice) 、 完 型 填空 〈cloze test) 、 完 成 语 篇 
(discourse completion) 、 论 文 写 作 (essays) 、 阅 读 理解 (reading 
comprehension) 的 短文 回答 问题 (brief-response questions) 等 题 型 已 实 
现 了 基于 网 络 的 自动 测评 。 近 年 来 ， 除 文字 形式 的 网 上 测试 题目 外 ， 还 
出 现 了 音频 和 视频 的 网 上 测试 题目 。 


前 面 提 到 欧洲 理事 会 资助 的 DIALANG 系 统 ， 现 在 已 可 以 通过 互联 
网 为 14 种 欧洲 语言 提供 诊断 测试 。 虽 然 该 系统 还 未 采用 自 适 应 题目 ， 但 
它 可 以 通过 最 初 的 自我 测评 及 随后 的 测试 了 解 到 考生 的 语言 水 平 。 


由 Ordinate ”Corporation 公司 开发 的 PhonePass 系 统 现 已 推出 了 网 络 
版 。 


美国 加 州 大 学 洛杉矶 分 校 CUniversity of California, Los Angeles) Jf 
发 的 基于 网 络 的 语言 测试 系统 (Web-based ^ Language Assessment 
System， 人 简称 WebLAS) 是 一 个 分 级 测试 系统 ， 可 提供 外 语 的 分 级 测 
试 ， 并 给 考生 提供 学 习 进 展 、 汇 报 诊断 和 最 终 学 习 成 果 等 方面 的 信息 ， 
还 可 用 视频 讲座 来 考 得 学 生 的 英语 理解 能 


2002 年 AutoMark 也 被 搬 到 了 了 网上， 取 名 叫做 ExamOnline。 


此 外 ， 明 文英 语 中 心 开发 的 网 络 更 语 课程 Market Leader 可 给 学 生 和 
老师 提供 初 测试 和 后 测试 的 信息 。 


网 上 语言 测试 网 站 现在 已 越 来 越 多 ， 例 如 Dave's ESL Caf6 有 个 小 测 
验 中 心 ， 叫 做 Quiz Center。 测 验 很 短 ， 可 立刻 给 分 ， 属 低 技术 的 网 上 测 
试 系统 ForumEducation.net 网 站 可 提供 两 个 多 项 选择 词汇 测试 ， 用 于 测 
试 英 语词 汇 知识 ， 作 为 衡量 英语 语言 水 平 的 一 个 尺度 ，Wordskills.com 
网 站 可 提供 3 个 水 平 的 测试 ， 每 套 25 个 题 ， 还 可 为 剑桥 第 一 证 书 (the 
Cambridge First Certificate〉、 高 级 英语 证 书 (Certificate in Advanced 
English) 及 英语 水 平 证 书 〈The Certificate of Proficiency in English) 提 
供 测 试 ，Churchill House 也 提供 网 上 测试 ， 为 将 要 参加 英国 剑桥 大 学 地 
方 考试 集团 组 织 (UCLES) 的 考试 的 考生 服务 ， 所 有 题目 都 是 多 项 选择 
jl; Netlanguages.com 网 站 可 以 给 学 习 者 提供 两 部 分 的 测试 : 一 是 纯粹 





的 语言 水 平 测 评 ， 二 是 为 网 络 课程 的 学 习 进 行 的 初 测试 ， 以 确定 测试 者 
该 进入 哪个 级 别 的 课程 学 习 。 测 试 者 可 先 按 上 自己 的 估计 ， 选 择 上 自己 的 英 
语 水 平 进行 测试 。 第 一 部 分 是 语法 ， 考 生 给 句子 填词 。 如 果 10 道 题目 做 
下 来 ， 分 数 过 低 ， 就 有 文字 建议 测试 者 应 改 做 男 一 水 平 的 题目 ， 第 二 部 
分 是 从 问题 集合 中 选择 一 些 问题 ， 然 后 写 出 两 三 个 句子 ， 进 行 回答 ; 另 
外 ，Study.com 网 站 可 以 提供 英语 听力 、 口 语 、 写 作 、 词 汇 、 阅 读 、 语 
法 测试 ， 并 为 学 习 者 提供 网 上 英语 课程 的 分 级 测试 。 





美国 教育 考试 服务 中 心 的 E-rater 系 统 现在 已 经 有 了 网 络 版 ， 叫 做 
Criterion. Criterion 与 E-rater 的 最 大 不 同 之 处 在 于 ，Criterion 主 要 立足 于 
给 学 生 提 供 英 语 作文 写作 指导 ， 因 此 开发 了 反馈 模块 ， 可 根据 作文 质量 
的 统计 数据 提供 反馈 信息 ， 如 与 主题 、 流 利 程度 等 有 关 的 信息 等 ， 主 要 
用 于 各 个 高 校 及 学 术 机 构 的 写作 测评 及 课 举 辅助 教学 。 目 前 Criterion 已 
用 于 小 学 、 初 中 和 高 中 的 英语 作文 批改 ， 以 及 大 学 本 科 生 、 研 究 生 的 英 
语 水 平 测试 (English Proficiency Test， 简 称 EPT) 和 托福 考试 的 准备 练 
习 。 另 外 ， 利 用 E-rater 的 “TBT-TOEFL”( 基 于 网 络 的 托福 考试 ) 2006 年 
起 已 全 面 实行 网 上 测试 。 














在 测试 理论 方面 ， 基 于 网 络 的 测试 或 网 络 自 适应 测试 与 基于 计算 机 
的 测试 或 计算 机 目 适 应 测试 有 很 多 相同 之 处 ， 但 网 络 的 目 身 特点 也 给 理 
论 探讨 提出 了 新 的 课题， 主要 体现 在 测试 的 真实 性 、 灵 活性 和 多 样 性 三 
个 方面 。 





真实 性 包括 情景 真实 〈Situational authenticity, 如 场景 、 参 与 者 、 内 
容 、 语 调 、 种 类 等 ) 和 交互 真实 〈Interactional authenticity, 275 ^E I] is 
言 知 识 、 交 际 任 务 等 ) 两 个 方面 。 研 究 者 们 认为 ， 利 用 网 络 进行 测试 ， 
测试 题目 不 再 是 封闭 型 测试 题目 ， 而 可 以 是 多 媒体 的 形式 ， 如 文本 、 图 
像 、 声 音 、 视 频 ， 或 是 包含 一 些 链接 ， 如 链接 到 某 个 图 书馆 或 数据 库 








的 、 可 以 使 用 外 部 资源 的 真实 信息 ， 由 于 采用 了 这 些 信息 ， 语 言 测试 将 
更 加 真实 。 


灵活 性 是 指 测 试 实施 的 灵活 性 。 由 于 网 络 的 普及 ， 基 于 网 络 的 测试 
可 以 不 受 时 间 、 地 点 的 限制 ， 考 生 可 以 在 自己 方便 的 任何 时 间 、 任 何 地 
点 参加 测试 ， 考 生还 可 以 按 上 自己 的 节奏 进行 测试 。 





多 样 性 是 指 网 络 可 以 提供 各 类 考试 ， 可 以 是 大 规模 的 高 风险 考试 ， 
也 可 以 是 低 风险 的 小 规模 考试 ， 或 是 自 训 等 。 





除了 有 共有 上 述 优点 外 ， 基 于 网 络 的 测试 实施 成 本 低廉 ， 考 生 只 需要 
有 一 台 联 网 的 计算 机 ， 装 一 个 网 络 浏 览 器 就 可 以 参加 测试 ， 而 测试 结果 
一 般 都 可 立刻 获得 ， 并 可 以 得 到 测试 结果 分 析 、 学 习 指 导 等 其 它 反馈 信 
轧 。 另 外 ， 测 试 设计 者 不 需要 懂 计 算 机 编程 ， 只 要 有 超 文本 置 标语 言 
(Hyper Text Mark-up Language， 人 简称 HIML ) 的 初步 知识 就 可 胜任 测 
试题 目的 设计 任务 ， 设 计 者 可 以 键入 考题 ， 或 利用 免费 的 编辑 程序 出 


jel 





虽然 基于 网 络 的 测试 有 诸多 优点 ， 其 缺点 也 是 显而易见 的 。 例 如 ， 
在 网 络 测试 时 ， 往 往 会 出 现 考试 作 浆 、 数 据 存 储 故 障 、 服 务 器 失灵 、 浏 
史 占 不 兼容 、 考 题 传 送 失 败 、 下 载 财 间 因 服务 费 繁 忙 而 拥堵 、 网 页 过 于 
复杂 、 考 生计 算 机 速度 过 慢 等 现象 ， 这 些 现象 都 会 影响 基于 网 络 的 测试 
顺利 实施 。 





基于 网 络 的 目 动 测 评 技术 与 基于 计算 机 的 测评 和 计算 机 目 适 应 测评 
的 撤 术 基本 上 是 相同 的 ， 区 别 在 于 如 何 将 基于 计算 机 的 测评 和 计算 机 目 
适应 测评 技术 转化 为 网 络 上 可 实施 的 测评 技术 。 








利用 互联 网 进行 测试 的 原理 是 使 用 HTML 语 言 编写 测试 工具 。 测 试 


文件 由 HTML 文 件 组 成 ， 存 放 在 考试 设计 者 的 服务 器 上 ， 然 后 被 下 载 到 
考生 的 计算 机 上 进行 。 可 以 一 次 下 载 全 部 考题 ， 也 可 一 题 一 题 下 载 。 考 
生 使 用 Web 浏 览 器 ， 如 Netscape Navigator 或 Microsoft Internet Explorer 解 
读 和 展现 下 载 的 HTML 文 件 。 考 生 在 自己 的 计算 机 上 答题 ， 然 后 把 答案 
发 送 到 服务 器 上 ， 或 使 用 已 下 载 的 评分 功能 ， 得 到 考试 结果 。 


进行 网 络 辅助 语言 测试 的 编程 语言 ， 一 般 使 用 “实用 抽取 与 报告 语 
ti" (Practical Extraction and Report Language) 的 脚本 语言 编写 ， 由 服 
务 器 存储 ， 由 Java 下 载 到 用 户 计 算 机 上 ， 束 可 以 实现 基于 网 络 的 自动 测 
Ths 
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反馈 模块 的 不 同 。 基 于 网 络 的 目 动 测评 的 反馈 模块 要 根据 考生 答题 情况 
的 数据 统计 进行 分 析 ， 之 后 反馈 给 学 生 ， 为 其 下 一 阶段 的 学 习 提 供 指 
导 。 





基于 计算 机 和 网 络 的 目 动 测评 研究 的 面 比 较 宽 ， 研 究 的 问题 很 多 ， 
尝试 的 技术 和 方法 也 是 多 种 多 样 的 。 许 多 自动 测评 系统 已 投入 了 广泛 的 
使 用 ， 取 得 了 民 好 的 效果 ， 值 得 我 们 关注 。 


语言 测试 手段 的 改进 是 随 着 科技 的 进步 而 不 断 发 展 的 。 有 学 者 预言 
计算 机 化 语言 测试 的 时 代 即 将 到 来 ， 这 预示 了 一 场 测试 方式 的 革命 
由 “ 纸 笔 测试 ”(pencil-and-paper tests) HANUL” (computerized 
tests) 的 转变 。 还 有 专家 预言 ， 通 过 计算 机 及 网 络 实施 的 高 风险 和 低 风 
险 的 各 类 考试 的 数量 将 猛 增 ， 语言 学 习 者 无 论 在 世界 的 哪个 角 洲 ， 或 早 
或 晚 都 有 可 能 参加 基于 计算 机 或 基于 网 络 的 语言 水 平 测 试 ， 可 以 预见 ， 
在 语言 教学 和 语言 测试 中 ， 大 规模 的 基于 网 络 的 语言 水 平 测试 将 日 益 普 
及 。 
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第 十 八 章 ”语音 合成 、 语 音 识 别 和 
汉字 识别 
本 章 介 绍 语音 合成 、 语 首 识别 和 汉字 识别 。 这 是 自然 语言 处 理 中 一 


;五 Wr. 
个 重要 的 应 用 领域 。 由 于 这 些 领 域 的 研究 涉及 到 较 多 的 物理 、 数 学 和 信 
写 处 理 的 知识 ， 本 章 只 从 语言 学 方面 做 简单 的 介绍 
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所 谓语 音 合 成 Cspeech synthesis) ， 就 是 用 计算 机 技术 或 数字 信和 号 
处 理 技术 来 重新 产生 人 类 的 语音 ， 这 是 一 种 教会 计算 机 说 话 的 技术 。 

在 一 般 情 况 下 ， 语 音 合成 需要 把 文本 转换 成 语音 ， 进 行文 语 转换 
CText-To-Speech， 人 简称 TTS) 。 在 语音 合成 中 ， 首 先 要 把 文本 映射 为 
波形 。 例 如 ， 我 们 有 如 下 的 文本 : 











PG&E will file schedules on April 20. 


语音 合成 器 要 把 这 个 文本 映射 为 如 下 的 波形 |; 


图 18.1 把 文本 映射 为 波形 





把 文本 映射 为 波形 之 后 ， 计 算 机 残 可 以 把 这 样 波形 转换 成 听 得 见 的 


语音 。 


早 在 1939 年 ， 多 德 莱 (H. Dudley) 就 在 纽约 的 国际 博览 会 上 展 出 
了 "说话 机”， 但 是 这 种 说 话机 并 没有 采用 电子 计算 机 的 技术 。1964 年 出 
Jf SMAL (Van Kempelen machine) ， 能 目 动 合成 大 量 的 拉丁 语法 
语 和 意大利 语 的 词汇 ， 引 起 了 科技 界 的 注意 。 从 20 世 纪 50 年 代 到 70 年 
代 ， 美 国 哈 斯 金 (Haskins〉 实 验 室 、 贝 尔 实 验 室 、 麻 省 理工 学 院 、 剑 
桥 空 军 研究 实验 室 、 瑞 典 斯 德 哥 尔 摩 旦 家 工学 院 、 德 国 夫 琅 不 费 研 究 阮 
都 进行 过 语音 合成 的 研究 。 

















现代 语音 合成 有 着 多 种 多 样 的 、 非 常 广泛 的 用 途 。 


自 先 ， 语 音 合成 器 可 以 用 于 基于 电话 的 会 话 乔 能 代理 系统 
(conversation agent system) 中 ， 这 种 智能 代理 可 以 与 人 进行 对 话 和 交 
谈 。 目 前 国外 的 会 话 乔 能 代理 系统 已 经 实用 化 了 。 


其 次 ， 语 音 合成 器 还 可 以 在 那些 不 是 会 话 的 场合 用 来 对 人 说 话 ， 例 
如 ， 用 语音 合成 咒 来 给 盲人 大 声明 读 ， 用 语音 合成 右 来 做 视频 游戏 ， 用 
语 首 合成 器 来 做 儿童 玩具 。 





最 后 ， 语 音 合成 还 可 以 用 于 帮助 那些 神经 受 损 的 病人 人 说话。 例如， 
英国 著名 天 体 物 理学 家 霍金 (Steven Hawking) HFE fH ATE SG 
MAME CALS) 而 失去 了 使 用 自己 语音 的 能 力 ， 现 代 语 音 合成 技术 
给 他 帮 了 大 忙 ， 他 可 以 通过 打字 给 语音 合成 器 ， 并 让 语音 合成 器 说 出 单 
词 的 方式 来 进行 说 话 。 

目前 ， 最 先进 的 语音 合成 系统 可 以 在 各 种 不 同 的 输入 环境 下 产生 优 


质 的 自然 语音 ， 尽 管 甚至 最 好 的 系统 产生 出 来 的 声音 还 显得 有 些 采 板 ， 
并 且 只 能 局 限于 它们 所 使 用 的 那些 语音 的 范围 之 内 。 

















本 书 作者 几 年 前 患 了 黄斑 前 膜 的 眼病 ， 双 目 视 物 不 清 ， 读 书 非常 困 
难 。2005 年 ， 我 借助 于 英语 和 汉语 的 语音 合成 器 让 计算 机 给 我 明 读 书面 
文字 ， 克 服 了 看 不 清 书面 文字 的 困难 ， 完 成 了 长 达 588 页 的 《自然 语言 
处 理 综 论 》 的 英汉 翻译 工作 ， 中 文 译 本 已 经 由 电子 工业 出 版 社 正式 出 版 
dfe 


可 见 ， 现 代 语 音 合成 技术 确实 给 我 们 的 生活 带 来 了 福音 ! 


目前 ， 语 音 合成 技术 已 经 走 进 了 普通 人 的 日 贡生 活 。 在 很 多 手机 





中 ， 都 有 语音 合成 装置 ， 可 以 正确 地 上 朗读 出 手机 上 的 短信 。 





语音 合成 分 为 三 大 类 : 录音 编辑 方式 ， 参 数 编辑 合成 方式 ， 规 则 合 
成 方式 。 下 面 分 别 说 明 。 


e 录 首 合成 方式 


这 是 一 种 最 老 的 语音 合成 方式 。 采 用 这 种 方式 时 ， 要 预先 把 文章 、 
单词 的 组 成 单位 录音 ， 然 后 按照 一 定 的 顺序 ， 把 这 些 单位 措 配 起 来 ， 组 
合成 所 需要 的 文章 或 单词 的 声音 。 例 如 ， 在 天 气 预报 中 ， 首 先 

把 < 晴 "、“ 有 时 ”、“ 阴 ”、“ 有 小 雨 "、 “多云 " 等 个 别 的 语音 单位 分 别 录 
首 ， 然 后 在 编辑 输出 “ 晴 ， 有 时 多 云 "，“ 阴 ， 有 小 雨 "等 语音 合成 的 结 
果 。 





录 首 编辑 时 ， 语 首 的 存 迪 媒体 ， 过 去 主要 使 用 磁 训 ， 如 今 磁 或 已 经 
过 时 ， 近 年 来 ， 由 于 半导体 存 贮 技术 的 迅速 发 展 ， 已 经 完全 使 用 半导体 
存 贮 器 。 


e 参数 编辑 合成 方式 





录音 编辑 方式 是 把 声音 表示 为 波形 ， 而 参数 编辑 合成 方式 则 把 声音 
表示 为 参数 。 采 用 参数 编辑 合成 方式 ， 首 和 匈 要 建立 语音 生成 过 程 的 数学 
模型 ， 再 用 这 个 数学 模型 的 十 多 个 参数 值 来 表示 声音 。 根 据 参 数 来 进行 
语音 合成 ， 这 种 方式 大 大 地 节省 了 信息 的 存 贮 量 。 











采用 录音 编辑 方式 ， 一 秒 钟 的 声音 需要 的 存 贮 量 是 24 一 64 KB (1 
KB 等 于 1 024 字 节 ， 而 1 个 字 节 等 于 8 个 二 进 制 位 ，1 个 二 进 制 位 就 是 1 比 
特 ， 所 以 ，1 个 字 节 有 8 比特 的 信息 量 ，1 KB 有 8 192 比 特 的 信息 量 ， 而 
采用 参数 编辑 合成 方式 ， 一 秒 钟 的 声音 需要 的 存 贮 量 只 是 1.2 一 9.6 KB。 











由 于 大 规模 集成 电路 技术 的 进步 ， 目 前 已 经 有 可 能 采用 参数 编辑 合 
成 方式 把 语音 的 合成 过 程 一 次 触发 完成 。 








清华 大 学 计算 机 系 于 1984 年 设计 了 “无 限 词汇 汉语 语音 合成 系统 ”， 
将 汉语 元 首 、 辅 首 和 过 渡 音 的 压缩 波形 参数 存 入 计算 机 内 ， 使 用 键盘 输 
入 汉语 拼音 ， 计 算 机 吏 可 以 调 出 相应 的 参数 ， 得 出 近似 的 语音 波形 ， 再 
将 这 些 语音 波形 合成 ， 输 出 所 需要 的 语音 。 该 系统 可 以 读 出 所 有 的 汉语 
首 节 ， 也 可 以 读 出 句子 。 他 们 采用 的 方式 已 经 把 录 首 编辑 合成 方式 与 参 
数 编辑 合成 方式 结合 为 一 体 了 。 


e 规则 合成 方式 


上 述 两 种 方式 都 是 以 人 发 出 的 自然 声音 作为 基础 的 ， 都 要 首先 把 所 
需 的 声音 单位 存 贮 在 计算 机 中 ， 然 后 再 把 它们 组 合 起 来 输出 。 规 则 合成 
方式 不 需要 预先 由 人 来 发 声 ， 然 后 再 设法 利用 这 样 的 声音 ， 而 是 把 单词 
或 文章 表示 为 符号 作为 输入 ， 通 过 规则 进行 语音 合成 ， 全 部 由 计算 机 进 
行 自动 处 理 ， 最 后 得 到 所 需要 的 语音 。 采 用 这 种 方式 ， 有 可 能 进行 任意 
词 或 者 任意 文章 的 合成 。 























这 种 合成 方式 的 初级 阶段 是 直接 输入 发 音符 号 ， 通 过 规则 合成 语 
音 ， 但 是 ， 这 种 合成 方式 的 高 级 阶段 则 不 必 输 入 发 音符 号 ， 而 是 直接 输 
入 人 们 通 稼 使 用 的 字符 ， 如 页 文 字母 、 日 文 假名 、 中 文 汉字 等 ， 就 可 以 
通过 规则 得 到 相应 的 语音 ， 这 束 是 “ 文 语 转 换 ”(text-to-speech) 。 











中 国 科 学 院 声学 研究 所 与 瑞典 星 家 工学 院 语言 通信 和 音乐 声学 系 合 
作 ， 于 1983 年 研制 成 汉语 文 语 转换 系统 ”， 采 用 规则 合成 方式 来 合成 汉 
语 语音 。 该 系统 首先 分 机 了 汉语 的 语音 频谱 和 音 位 规则 ， 建 立 了 合成 规 
则 。 可 以 通过 键盘 或 光电 阅读 装置 输入 用 汉语 拼音 拼写 的 文章 ， 计 算 机 








根据 合成 规则 ， 读 出 合成 后 的 语音 。 该 系统 还 可 以 根据 句 型 调整 语调 ， 
根据 句子 中 东 些 单词 上 标 出 的 着 重点 进行 重读 ， 筷 合成 语音 的 词汇 量 是 
无 限 的 ， 已 经 可 以 用 计算 机 来 朗读 故事 。 








这 方面 的 研究 目前 在 欧美 特别 活跃 。 美 国 己 制 成 DEK TALK 作 为 商 
品 出 售 ， 合 成 的 英语 音质 良好 ， 目 然 悦 耳 。 尽 管 英 语 中 从 文字 到 发 音符 
号 之 间 的 转换 十 分 复 杀 ， 但 仍 有 规律 可 循 。 从 他 们 出 售 的 商品 的 质量 来 
看 ， 这 个 问题 已 经 解决 得 相当 圆满 。 日 语 中 汉字 的 读音 常 因 上 下 文 的 不 
同 而 有 差异 ， 因 此 ， 从 文字 到 发 音符 号 之 间 的 转换 比较 困难 ， 但 对 于 用 
假名 写 的 日 文 文章 ， 已 经 可 以 采用 规则 合成 的 方式 进行 语音 合成 ， 并 且 
已 经 实用 化 了 。 





为 了 提高 合成 语音 的 音质 ， 各 国学 者 都 投入 了 相当 的 力量 。 中 国 社 
会 科学 院 语言 研究 所 近年 来 从 声学 语音 学 和 发 声 语音 学 两 方面 入 手 ， 研 
拖 汉语 语音 特征 ， 以 提高 合成 语音 的 目 然 程度 ， 在 单元 音 和 符合 元 音 的 
研究 方面 已 取得 一 定 成 绩 ， 建 立 了 汉语 普通 话 规 则 合成 系统 。 




















合成 单元 的 选取 是 开发 语音 合成 系统 中 关键 问题 。 所 谓 合成 单元 ， 
古 指 在 一 种 语音 合成 系统 中 ， 为 了 合成 无 限 词语 的 语句 而 选取 的 语言 学 
上 的 茶 种 基本 单元 。 为 了 开发 出 合成 音质 较 好 的 普通 话语 音 合 成 系统 ， 
他 们 选取 了 声母 和 韵母 这 样 的 比 音节 更 小 的 语音 单元 为 合成 单元 ， 寻 找 
出 各 种 语音 层次 上 的 音 变 规律 ， 适 时 地 调整 合成 参数 ， 这 样 就 有 可 能 得 
到 较 高 音质 的 合成 语句 。 








声学 语音 学 的 分 析 表 明 ， 普 通话 中 的 声母 和 韵母 ， 虽 然 没 有 什么 一 
成 不 变 的 声学 表现 与 之 一 一 对 应 ， 但 可 进一步 划分 出 若干 个 “特征 音 
段 *， 在 大 量 分 析 了 普通 话 中 有 代表 性 的 音节 的 语 谱 图 和 反复 的 合成 试 
验 之 后 ， 他 们 提出 了 “音节 -声母 /韵母 - 音 段 ”(Syllable-Initial/Final- 








Segment Model， 人 简称 SIFS 模 型 ) 。 根 据 SIFS 模 型 ， 从 普通 话 的 一 个 音 
节 里 ， 可 划分 出 7 种 特征 音 段 ， 按 出 现 的 前 后 顺序 排列 ， 它 们 是 : OFC 
声 段 ， 思 声母 辅音 段 ，@ 送 气 段 ， 由 前 过 渡 段 ， 加 元 音 段 ，(@ 后 过 渡 
段 ，@ 民 音 段 。 对 于 某 一 个 具体 的 音节 来 说 ， 可 能 具有 一 (2 全 部 音 
段 ， 也 可 能 只 具有 其 中 的 某 几 段 。 但 是 ， 任 何 音节 都 少不了 元 音 段 ， 而 
且 ， 只 要 声母 不 是 零 声 母 ， 一般 都 会 有 过 渡 段 。 他 们 在 反复 试验 的 基础 
上 ， 建 立 了 一 个 以 60 个 声母 变 体 和 40 个 韵母 为 存 贮 单元 的 合成 参数 库 ， 
用 这 些 参数 能 合成 出 普通 话 的 全 部 单 音 节 及 儿 化 音节 和 轻声 音节 。 











在 自然 的 语 流 中 ， 一 个 个 语音 的 调 音 和 发 声 是 相互 影响 的 ， 存 在 着 
协同 调 音效 应 〈co-articulation) 和 协同 发 声效 应 〈co-phonetion) 。 协 同 
调 音 是 指 音 段 特征 〈 即 音色 ) 之 间 的 相互 影响 ， 如 连 读音 变现 象 ， 协 同 
发 声 是 指 超 音 段 特征 〈 即 音 高 、 音 长 、 音 强 ) 之 间 的 影响 ， 如 语音 的 前 
律 特 性 。 











为 了 改善 合成 语句 的 流畅 性 ， 必 须 在 合成 参数 的 过 程 中 ， 设 法 模拟 
协同 调 音效 应 ， 如 “ 面 ”mian/ 和 “ 包 ”/bao/ 连 读 时 ，/n/ 会 被 双 层 音 /p/ 同 化 
而 变 为 /m/。 他 们 归纳 出 音节 间 协 同调 音效 应 的 规律 ， 合 成 出 音色 清晰 
而 流畅 的 多 音节 词语 。 





为 了 改善 合成 语句 的 自然 度 ， 必 须 在 合成 参数 的 过 程 中 ， 设 法 模拟 
协同 及 声效 应 ， 考 虑 语 首 的 首 高 、 首 长 、 音 强 等 韵律 特征 。 由 于 汉语 普 
通话 的 重音 是 影响 声调 、 音 长 和 音 强 的 重要 参量 ， 他 们 把 语 流 中 的 各 音 
市 的 重音 ， 当 作 控 制 韵律 特性 的 主要 参量 ， 根 据 每 一 个 音节 的 轻重 等 
级 ， 调 贡 这 个 音节 的 调 域 、 声 母 和 韵母 的 语音 时 长 以 及 浊 声 源 幅 度 ， 制 
定 了 声调 协调 规则 、 时 长 协调 规则 和 幅度 协调 规则 ， 提 高 了 合成 语音 的 
目 然 度 ， 减 少 了 “机 器 味 儿 ””， 他 们 合成 的 语 首 达到 了 以假乱真 的 程度 。 
该 系统 的 合成 首 质 在 国内 居于 领先 水 平 。 





























清华 大 学 计算 机 系 在 文 语 转换 系统 的 研制 中 ， 采 用 了 以 词 为 单位 的 
合成 策略 ， 这 个 系统 不 但 能 够 合成 单字 的 语音 ， 而 且 ， 还 能 够 根据 对 文 
草 的 理解 ， 进 行 目 动 切 词 ， 并 根据 语言 的 上 下 文 和 音 变 规则 确定 正确 的 
发 音 ， 将 书面 的 文本 按 单 词 的 目 然 停顿 实时 地 读 出 来 ， 可 保持 上 自然 语言 
的 韵律 ， 提 高 了 文 语 转换 的 可 复 度 和 目 然 度 。 











在 语音 合成 中 ， 为 了 把 文本 上 映射 为 波形 ， 首 先 把 输入 文本 转换 成 语 
音 内 部 表示 (phonemic internal representation) ， 而 为 了 生成 语音 的 内 部 
表示 ， 首 先 必须 对 于 形形色色 的 、 自 然 状态 的 文本 做 前 处 理 Cpre- 
processing) 或 归 一 化 (normalization) ， 把 输入 的 文本 分 解 为 句子 ， 处 
理 缩写 词 、 数 字 等 等 特殊 问题 。 








目前 ， 黄 语 的 文本 归 一 化 研究 已 经 取得 不 少 的 成 果 。 





英语 的 文本 归 一 化 有 三 个 任务 : 第 一 个 是 句子 的 词 例 还 原 


(sentence tokenization) ， 第 二 个 是 非 标准 词 (non-standard words, ffi 


称 NSWs) 的 处 理 ， 第 三 个 是 同形 异 义 词 的 排 政 。 











"if" (token) 是 文本 中 独立 的 词汇 单元 。 所 谓 “ 词 例 还 
原 ”(tokenization〉， 就 是 自动 地 把 句子 中 的 单词 作为 独立 的 词 例 切 分 
出 来 。 黄 语文 本 中 的 单词 一 般 是 界限 分 明 的 ， 单 词 与 单词 之 间 存 在 至 
日 ， 单 词 的 切 分 不 像 汉 语 书 面 文本 那样 困难 。 但 是 ， 下 列 情 况 仍 需要 进 
行 切 分 ， 把 独立 的 “ 词 例 ” 找 出 来 : 

















e 缩写 : 
a. 缩写 “字母 + 圆 点 + 字母 + 圆 点 ” 算 一 个 词 例 : 例 


如 ，“U.S.”，“ie.”，“U.K.” 都 算 一 个 词 例 。 








b. 缩写 “字母 串 + 圆 点 ” 算 一 个 词 例 : 例 
Jl, “Mr.”, "Mrs". “Eds.”, “Prof.”, “Dr.”, "Go; "Jam", “A.”, “be” 
算 一 个 词 例 。 


e 连续 的 数字 : PI, “123456，78” 是 一 个 独立 的 词 
例 。“90.7%” 带 百 分 符 号 ， 也 应 该 算 一 个 独立 的 词 例 。 分 数 “3/8” 算 一 个 
独立 的 词 例 。 日 期 <15/04/1939” 也 算 一 个 独立 的 词 例 。 





e 含有 非 字 母 符 号 的 缩写 算 一 个 词 例 : 例 
如 ，“AT&T”，“Micro$oft” 都 算 一 个 词 例 。 


e 带 连 字符 的 词 串 算 一 个 词 例 : 例如 ,，“three-years-old”，“one- 
third”，“so-called” 都 算 一 个 词 例 。 


e TRAN RAYA SBA pl: 例如 ，“and so on”, “ad 
hoc” 都 算 一 个 词 例 。 








o 市 省 略 符号 C 的 符号 串 ， 要 还 原 成 不 同 的 词 例 : 例如， 
一 Let's 还 原 成 lettus 

一 2m 还 原 成 Iam 

一 {it, that, this, there, what, where}'s 还 原 成 {~}+is 


一 He's 还 原 成 (Hetis) 或 者 CHe-has) 





经 过 词 例 还 原 之 后 ， 句 子 中 的 符号 串 补 转换 成 词 例 串 。 这 样 ， 束 为 
波形 合成 提供 了 方便 。 


下 面 的 英语 文本 是 从 Enron 语 料 库 中 抽取 出 来 的 ， 我 们 来 考虑 一 下 


这 个 文本 在 处 理 上 的 困难 究竟 有 多 大 : 


He said the increase in credit limits helped B.C. Hydro achieve 
record net income of about $1 billion during the year ending March 31. 
This figure does not include any write-downs that may occur if Powerex 
determines that any of its customer accounts are not collectible. Cousins, 
however, was insistent that all debts will be collected: “We continue to 
pursue monies owing and we expect to be paid for electricity we have 
sold." 


为 了 把 上 面 这 个 文本 的 片段 切 分 成 彼此 分 开 的 话 段 以 便 进 行 语 音 合 
成 ， 我 们 需要 知道 ， 第 一 个 句子 是 在 March “31 后 面 的 那个 小 圆 点 处 结 
尾 ， 而 不 是 在 B.C 后 面 的 小 圆 点 处 结尾 ， 因 此 ，March 31 后 面 的 那个 小 
圆 点 要 还 原 成 多 号 ， 单 独 切 分 出 来 ， 而 B.C 后 面 的 小 圆 点 不 能 单独 切 
分 ， 应 当 把 “B.C.” 作 为 一 个 单独 的 词 例 。 我 们 还 需要 知道 ， 在 单词 
collected 处 是 一 个 句子 的 结尾 ， 尽 管 collected 后 面 的 标点 符号 是 一 个 冒 
号 ， 而 不 是 小 圆 点 ， 因 此 ， 这 个 冒号 应 当 作 为 一 个 单独 的 词 例 。 这 些 研 
究 工 作 的 目的 是 找 出 句子 中 的 “ 词 例 ”， 所 以 ， 叫 做 “ 词 例 还 原 ”。 











瑞 语 文本 归 一 化 的 第 二 个 任务 是 处 理 非 标准 词 (non-standard 
words) 。 非 标准 词 是 指 那 些 在 标准 的 发 音 词典 (pronunciation 
dictionary) 中 没有 收录 的 单词 ， 包 括 数字 、 首 字母 缩写 词 、 普 通缩 写 词 
等 等 ， 由 于 这 些 非 标 准 词 的 数量 几乎 是 无 限 的 ， 发 音 也 没有 明确 的 标 
准 ， 因 而 在 标准 的 发 音 词 典 中 难以 注 明 它们 的 准确 发 音 。 例 如 ，March 
31 的 发 音 应 当 是 March thirty-first， 而 不 是 March three one; $1 billion 的 
发 音 应 当 是 one billion dollars， 在 billion 的 后 面 应 当 加 一 个 单词 dollars。 
它们 都 没有 按照 英语 的 一 般 习 惯 来 发 音 ， 需 要 特殊 对 符 。 











此 外 ， 瑞 语文 本 归 一 化 还 要 研究 同形 异 义 词 的 排 上 层 Chomograph 


disambiguation) 问题 。 


下 面 ， 我 们 分 别 讨论 英语 文本 归 一 化 中 的 这 些 问题 。 





句子 的 词 例 还 原 





我 们 在 上 面 看 到 了 两 个 例子 ， 说 明 喘 语句 子 的 词 例 还 原 是 有 一 定 难 
度 的 ， 因 为 句子 的 边界 不 总 是 用 小 圆 点 来 标识 ， 有 时 也 可 以 用 如 像 冒 号 
这 样 的 标点 符号 来 标识 。 当 以 一 个 缩写 词 来 结束 句子 的 时 候 ， 还 会 出 现 
一 个 附带 的 问题 ， 这 时 ， 缩 写 词 结尾 处 的 小 圆 点 会 起 双重 的 作用 。 例 
如 ， 在 句子 “The group included Dr. J. M. Freeman and T. Boone Pickens 
Jr.” 中 ,，“Jr.” 最 后 的 小 圆 点 ， 既 可 以 表示 Junior 的 缩写 (T. Boone Pickens 
工 .表示 “小 T. Boone Pickens”) ， 有 可 以 表示 句 末 的 句号 。 这 个 小 圆 点 产 
生 了 歧义 。 














碳 语 句子 的 词 例 还 原 的 一 个 关键 部 分 惑 是 小 圆 点 的 排 琉 问题 。 大 多 
数 英 语句 子 词 例 还 原 的 算法 都 比 确定 性 算法 〈deterministic algorithm) 
要 更 加 复杂 一 些 ， 特 别 是 这 些 算法 都 是 通过 机 器 学 习 (machine 
learning) 的 方法 来 训练 ， 而 不 是 用 手工 建立 的 。 在 进行 这 样 的 训练 
时 ， 我 们 首先 要 手工 标注 融 有 句子 边界 的 一 个 训练 集 ， 然 后 使 用 任何 一 
种 有 指导 的 机 器 学 习 方法 (supervised machine learning) 训练 一 个 分 类 
器 〈classifier) 来 判定 并 标注 句子 的 边界 。 


更 加 具体 地 说 ， 在 开始 的 时 候 ， 我 们 可 以 把 输入 文本 还 原 成 彼此 之 
间 有 空白 分 隔 开 的 词 例 ， 然 后 ， 选 择 包含 <"! >, "或 者 "? "三 个 符号 中 





的 任何 一 个 符号 (也 可 能 包含 冒号 “<: ”) 的 词 例 作 为 句子 的 结尾 。 在 手 
工 标注 了 一 个 包含 这 样 的 词 例 的 语料库 之 后 ， 我 们 就 训练 一 个 分 类 器 ， 
对 于 这 些 词 例 内 的 潜在 句子 边界 字符 ， 进 行 二 元 判定 ， 判 定 某 个 词 例 是 
EOS (end-of-sentence， 人 句子 结尾 ) ， 还 是 notrEOS 〈 非 句子 结尾 ) 。 





这 种 分 类 器 成 功 与 否 依 赖 于 在 分 类 时 抽出 的 特征 。 





让 我 们 来 研究 在 给 句子 边界 排 歧 的 时 候 可 能 用 得 痢 的 东 些 特征 模 
板 ， 其 中 的 句子 边界 符号 candidate《〈 候 选 成 分 ) 表示 在 我 们 训练 的 少量 
数据 中 可 能 标注 为 句子 边界 的 茶 个 符号 : 





e Prefix: 前 缀 〈 处 于 candidate 之 前 的 候选 词 例 部 分 ) 


e Suffix: 后 级 (处 于 candidate 之 后 的 候选 词 例 部 分 ) 





e PrefixAbbreviation 或 SuffixAbbreviation: 前 级 或 后 级 是 不 是 (一 
串 符 号 中 的 ) 缩写 词 


e PreviousWord: 处 于 candidate 之 前 的 单词 
e NextWord: 处 于 candidate 之 后 的 单词 


e PreviousWordAbbreviation: 处 于 candidate 之 前 的 单词 是 不 是 一 个 
缩写 词 


e NextWordAbbreviation: 处 于 candidate 之 后 的 单词 是 不 是 一 个 缩写 
词 





我 们 来 研究 下 面 的 例子 : 


ANLP Corp. chairman Dr. Smith resighed. 


对 照 上 面 的 特征 模板 ， 在 的 单词 “Corp.” 中 的 小 圆 点 “.” 的 特征 值 


H 
AE: 


PreviousWord=ANLP 
NextWord=chairman 
Prefix=Corp 

Suffix=NULL 
PreviousWordAbbreviation=1 
NextWordAbbreviation=0 





如 果 我 们 的 训练 集 足 够 大 ， 那 么 ， 我 们 也 可 以 找到 一 些 关 于 句子 边 
界 的 词汇 方面 的 线索 。 例 如 ， 某 些 单词 可 能 倾 问 于 出 现在 句子 的 开头 ， 
某 些 单词 可 能 倾 同 于 出 现在 句子 的 结尾 。 这 样 ， 我 们 又 可 以 加 进去 如 下 
的 特征 : 


e Probability [ candidate occurs at end of sentence] : 表示 candidate 


出 现 于 句子 结尾 的 概率 。 





e Probability [word following candidate occurs at beginning of 


sentence] : 表示 跟随 在 出 现 于 句子 开头 的 candidate 的 单词 的 概率 。 


上 面 所 述 的 特征 ， 大 部 分 是 与 具体 的 语言 无 关 的 ， 此 外 ， 我 们 还 可 
以 使 用 一 些 针对 具体 语言 的 特征 。 例 如 ， 在 英语 中 ， 句 子 一 般 式 以 大 与 
字母 开头 的 ， 所 以 ， 我 们 还 可 以 使 用 如 下 的 特征 : 


e Case of candidate: candidate 的 大 小 写 情况 ， 例 如 ，Upper, Lower, 
Allcap, Numbers 


e Case of word following candidate: 跟随 在 candidate 后 面 的 单词 的 


大 小 写 情况 : 例如 ，Upper, Lower, Allcap Numbers 








类 似 地 ， 我 们 还 可 以 使 用 缩写 词 的 某 些 次 类 的 信息 ， 例 如 ， 尊 称 或 
头衔 (Dr., Mr., Gen.) ， 公 司 名 称 〈Corp.，Inc.) ， 月 份 名 称 (Jan.， 
Feb.) 。 


任何 的 机 器 学 习 方 法 都 可 以 用 来 训练 EOS 分 类 右 。 逻 辑 回归 
(logical regression) 和 决策 树 (decision tree) 是 两 种 最 普通 的 方法 ; 2E. 
辑 回 归 的 精确 度 比 决策 树 的 精确 度 要 蜗 一 些 。 





一 一 非 标 准 词 的 归 一 化 





非 标 准 词 是 诸如 数字 或 缩写 词 之 类 的 词 例 ， 在 英语 中 专 有 名 词 的 读 
音 很 特别 ， 词 典 中 一 般 查 不 出 来 ， 也 可 以 算 为 非 标 准 词 。 在 语音 合成 
中 ， 在 计算 机 读 出 它们 之 前 ， 需 要 把 它们 扩充 为 英语 单词 的 序列 。 








英语 非 标准 词 的 处 理 是 很 困难 的 ， 因 为 它们 总 是 在 读音 方面 存在 长 
义 。 例 如 ， 在 不 同 的 上 下 文中 ，1750 这 个 数字 至 少 可 以 有 4 种 不 同 的 读 
法 : 


Seventeen fifty: 《在 “The European economy in 1750” 中 ) 
One seven five zero: |. (TE"The password is 1750” 中 ) 
Seventeen hundred and fifty: | (1E*1750 dollars" rt) 


One thousand, seven hundred, and fifty: 《在 “1750 dollars” 中 ) 


相似 的 琉 义 问题 也 发 生 在 罗马 数字 IV 或 2/3 等 非 标 准 词 的 读音 中 。 


IV 可 以 读音 为 four， 或 者 读 为 fourth， 或 者 也 可 以 按照 字母 TH 和 V 分 
别 来 读 ， 这 时 ，IV 的 含义 是 “intravenous”( 静 脉 内 的 ) o 


2/3 可 以 读 为 two ”thirds， 或 者 读 为 February third， 或 者 读 为 March 
second， 或 者 读 为 two slash three. 





有 某 些 非 标 准 词 是 由 字母 构成 的 ， 例 如 ， 缩 写 词 Cabbreviation) ， 字 
母 序列 〈]letter sequences) ， 首 字母 缩写 词 Cacronyms) 等 。 


缩写 词 读 音 时 ， 一 般 都 要 进行 扩充 Cexpanded) ; 所 以 ，Wed 要 读 
为 Wednesday，Jan 1 要 读 为 January first。 像 UN, DVD, PC, IBM 这 样 的 字 
母 序列 〈letter sequences) 读音 时 ， 要 按照 字母 在 序列 中 的 顺序 ， 一 个 
一 个 地 来 读 。 像 IKEA, MoMA, NASA 和 UNICEF 这 样 的 首 字母 缩写 词 读 
首 时 ， 要 把 它们 当做 一 个 单词 来 恋 。 这 里 也 会 出 现 皮 义 问题 。Jan 按 照 
一 个 单词 来 读音 呢 〈 人 名 Jan) ? 还 是 扩充 为 月 份 名 称 January 来 读音 ? 
这 常常 会 使 为 我 们 陷入 举 棋 不 定 的 困 填 。 











我 们 可 以 把 英语 中 数字 和 字母 组 成 的 非 标准 词 归 纳 为 字母 非 标准 记 
和 数字 非 标准 词 两 大 类 型 ， 每 一 个 大 类 又 可 以 进一步 细 分 为 若干 个 小 


类 ; 





e 字母 非 标准 词 
EXPN (Abbreviation, 4 55W]) : 例如 ，adv, N.Y., mph, gov't 


LSEQ (Letter seduence， 字 母 序列 ) : Plin, DVD, D.C., PC, UN, 
IBM 


ASWD (Read as word， 按 一 个 单词 读音 ) : f IKEA, XA 
词 ， 专 有 名 词 


e 数字 非 标准 词 
NUM (Number cardinal， 基 数 词 ) : 例如 ，12, 45, 1/2, 0.6 


NORD (Number ordinal, FF : 例如 ，May 7, 3rd, Bill, Gates 
IH 


NTEL (Telephone or part of telephone， 电 话 号 码 或 电话 号 码 的 一 部 
分 ) : 212-555-5423 


NDIG (Number as digit, #975) : Room 101 
NIDE 〈Identifier， 识 别 号 码 ) : 747,386, 15, pc110, 3A 


NADDR (Number as street address， 街 道 地 址 号 码 ) : 747, 386, 15, 
pc110, 3A 


NZIP (Zip code or BO Box， 邮 政 编码 或 信箱 号 码 ) : 91020 
NTIME (Time, Hj[H]) : 3.20, 11: 45 

NDATE (Date, HH) : 2/28/05, 28/02/05 

NYER (Years, FR) : 1988, 80s, 1900s, 2008 


MONEY (Money, US or ”other， 美 元 或 其 他 货币 ): $3.45, 
HK$300, Y20,200, $200K 





BMONEY (Money tr/m/billions, 7345 / 百 万 /十 亿 的 货币 ) : $3.45 


billion 
PRCT (Percentage, HAEE) : 75%, 3.4% 


每 种 类 型 非 标准 词 都 有 一 个 或 几 个 特定 的 实际 读 法 。 例 如 ， 年 代 
(NYER) 通常 按 “ 双 对 式 读 法 ”(paired method) 来 读 ， 其 中 每 一 对 数 
字 按 照 一 个 整数 来 读音 (例如 ，1750 读 为 seventeen fifty) ; 而 美国 的 邮 
政 编 码 (NZIP〉 通 和 常 按 “顺序 式 读 法 ”(serial method) 来 恋 ， 序 列 中 的 
每 一 个 数字 单独 读音 (例如 ，94110 读 为 nine four one one zero? 。 货 币 
(BMONEY ) 这 种 类 型 的 读 法 要 处 理 一 些 特异 的 表达 形式 。 例 如 ，$3.2 
billion 在 读 首 的 时 候 要 在 结尾 加 一 个 单词 dollars， 读 为 three point two 
billion dollars。 对 于 字母 非 标准 词 的 读 法 ， 我 们 有 EXPN, LSEQ 和 ASWD 
等 类 型 。EXPN 用 于 诸如 “N.Y.” 这 样 的 缩写 词 ， 读 的 时 候 要 进行 扩充 ; 
LSEQ 用 于 读 那 些 要 按照 字母 序列 来 读音 的 首 字母 缩写 词 ，ASWD 用 于 
该 那些 要 按照 单词 来 读音 的 首 字 母 缩写 词 。 




















非 标准 词 的 处 理 至 少 有 三 个 步 又: 词 例 还 原 Ctokenization? ， 分 类 
(classification) ， 扩 充 〈expansion) 。 词 例 还 原 用 于 分 割 和 识别 潜在 
的 非 标 准 词 ; 分 类 用 于 给 非 标准 词 标 上 面 所 述 的 那些 恋 首 类 型 ， 扩 充 用 
于 把 每 一 个 类 型 的 非 标准 词 转换 为 标准 词 的 符号 串 。 











在 词 例 还 原 这 个 步骤 ， 我 们 可 以 使 用 空白 把 输入 文本 还 原 成 词 例 ， 
在 词 例 与 词 例 之 间 用 空白 分 开 ， 然 后 假定 在 发 首 词典 中 没有 的 单词 都 是 
非 标 准 词 。 一 些 更 加 细致 的 词 例 还 原 算 法 还 可 以 处 理 某 些 词 典 中 业已 包 
含 某 些 缩写 词 这 样 的 事实 。 例 如 ，CMU 发 音 词 典 就 包含 了 缩写 词 st，mzr, 
mrs 的 发 音 〈 尽 管 这 些 发 音 不 正确 ) 以 及 诸如 mon，tues，nov，dec 等 日 期 
和 月 份 的 缩写 词 。 因 此 ， 除 了 那些 没有 看 到 的 单词 之 外 ， 我 们 还 有 必要 





给 首 字 母 缩写 词 标注 发 音 ， 并 把 单字 母 的 词 例 作 为 淤 在 的 非 标准 词 来 处 
理 。 词 例 还 原 算 法 还 需要 对 于 那些 包含 两 个 词 例 的 组 合 分 隅 成 不 同 的 单 
词 ， 例 如 ，2-car 或 RVing 等 。 我 们 可 以 使 用 简单 的 局 发 式 推理 方法 来 分 
隔 单词 ， 例 如 ， 把 破 折 号 作为 分 割 的 标志 ， 把 大 写字 母 与 小 写字 母 转换 
之 处 作为 分 割 的 标志 ， 等 等 。 





下 一 个 步骤 是 分 类 ， 也 就 是 标注 非 标准 词 的 类 型 。 使 用 简单 的 正则 
表达 式 就 可 以 探测 出 很 多 非 标准 词 的 类 型 。 例 如 ，NYER 可 以 使 用 如 下 
的 正则 表达 式 来 探测 : 





/ (1[89] [o9] [0-9] ) | (20 [0-9] [0-9] 5 / 


其 他 类 型 的 规则 写 起 来 比较 困难 ， 所 以 ， 使 用 带 有 很 多 特征 的 机 器 
学 习 分 类 器 来 进行 分 类 将 会 更 加 有 效 。 


为 了 区 分 字母 非 标准 词 ASWD，LSEQ 和 EXPN 等 不 同 的 类 型 ， 我 们 
可 以 使 用 组 成 成 分 的 字母 的 一 些 特征 。 我 们 在 这 里 举例 简单 地 说 一 说 : 
全 是 大 写字 母 的 单词 (OBM, US) 可 以 归 入 LSEQ 这 一 类 ， 带 有 单 引 号 的 
全 是 小 写字 母 组 成 的 一 些 比较 长 的 单词 (gov't, capn? 可 以 归 入 EXPN 这 
一 类 ， 带 有 多 个 元 音 的 全 是 大 喜 字 母 组 成 的 单词 (NASA, IKEA) 可 以 
归 入 ASWD 这 一 类 。 





另外 一 个 很 有 用 的 特征 是 相 邻 单词 的 辨识 。 我 们 来 研究 如 像 3/4 这 
样 的 歧义 字符 串 ， 它 可 以 归 入 NUM (three-fourths) 或 者 归 入 
NDATE (march third) 。 归 入 NDATE 时 ， 它 的 前 面 可 能 出 现 单 词 on， 
后 面 可 能 单词 of， 或 者 在 周围 单词 的 某 个 地 方 出 现 单词 Monday。 与 此 不 
同 ， 归 入 NUM 时 ， 它 的 前 面 可 能 是 男 外 一 些 数字 ， 后 面 可 能 出 现 如 像 
mile 和 inch 之 类 的 表示 计量 单位 的 单词 。 类 似 地 ， 如 像 VII 这 样 的 罗马 数 





字 ， 当 前 面 出 现 Chapter， part 或 者 Act 等 单词 时 ， 可 能 倾 癌 于 归 入 
NORD (seven) ， 当 在 相 邻 单词 中 出 现 king 或 者 Pape 之 类 的 单词 时 ， 就 
可 能 倾向 于 归 入 NUM (seventh) 。 这 些 上 下 文 单词 可 以 通过 手工 的 方 

式 选 择 作 为 特征 ， 也 可 以 通过 诸如 决策 表 (decision list) 算法 这 样 的 机 
器 学 习 技术 选择 作为 特征 。 


如 果 把 上 述 的 各 种 办 法 结合 起 来 ， 建 立 一 个 机 器 学 习 的 分 类 器 ， 这 
样 就 能 大 大 地 提高 分 类 的 效能 。 例 如 ，2001 年 斯 普 劳 特 〈Sproat) 等 研 
制 的 非 标准 词 分 类 器 (NSW classifier) 使 用 了 136 个 特征 ， 其 中 包括 诸 
如 “全 是 大 写字 母 ” “SAAS”, “含有 和 斜 线 号”，“ 词 例 长 度 ” 等 基 
于 字母 的 特征 ， 还 包括 诸如 Chapter, on, king 等 特殊 的 单词 是 否 在 周围 的 
上 下 文中 出 现 的 三 元 特征 。 斯 普 劳 特 还 提出 了 一 个 基于 规则 的 粗 分 类 器 
(rough-draft classifier) ， 其 中 使 用 手写 的 正则 表达 式 来 给 很 多 表示 数 
字 的 非 标 准 词 分 类 。 这 个 粗 分 类 器 的 输出 可 以 在 主 分 类 器 (main 
classifier) 中 作为 另外 的 特征 来 使 用 。 





为 了 建立 这 样 的 主 分 类 器 ， 我 们 需要 一 个 手工 标注 的 训练 集 ， 其 中 
的 每 一 个 词 例 都 标 出 它们 的 非 标准 词 分 类 范畴 ， 斯 普 苑 特 就 建立 了 一 个 
这 样 的 手工 标注 数据 库 。 给 出 了 标注 训练 集 ， 我 们 就 可 以 使 用 任何 一 种 
有 监督 的 机 需 学 习 算法 ， 例 如 前 面 讨论 过 的 逻辑 回归 算法 、 诀 策 树 算法 
等 。 然 后 ， 我 们 训练 分 类 器 来 使 用 这 些 特征 ， 从 而 预测 手工 标注 的 非 标 
准 词 的 分 类 范畴 。 


非 标准 词 处 理 的 第 三 个 步骤 是 把 非 标准 词 扩充 为 一 般 的 单词 。 
EXPN 这 种 非 标准 词 的 类 型 扩充 起 来 是 非常 困难 的 。EXPN 这 种 类 型 包 
括 缩写 词 和 像 NY 这 样 的 首 字 母 缩写 词 。 一 般 地 说 ， 扩 充 时 需要 借助 于 
缩写 词 词 典 ， 并 且 要 使 用 同音 异 义 词 的 排 玉 算法 来 处 理 卜 义 问题 。 











其 他 的 非 标准 词类 型 的 扩充 一 般 都 是 确定 性 的 。 很 多 的 扩充 都 是 简 
单 易 行 的 。 例 如 ，LSEQ 把 非 标 准 词 中 的 每 一 个 字母 扩充 为 单词 序列 ; 
ASWD 把 非 标准 词 读 为 一 个 单词 ， 等 于 把 非 标准 词 扩 充 为 它 自 己 ; 
NUM 把 数字 扩充 为 表示 基数 词 的 单词 序列 ，NORD 把 数字 扩充 为 表示 序 
数 词 的 单词 序列 ; NDIG 和 NZIP 都 分 别 把 数字 扩充 为 相应 的 单词 序列 。 











其 他 类 型 的 扩充 要 稍微 复杂 一 些 ;， NYER 把 年 代 按 两 对 数字 来 扩 
充 ， 如 果 年 代 以 00 结 尾 ， 那 么 ， 年 代 的 4 个 数字 则 按照 基数 词 来 读音 
(2000 读 为 two thousand〉， 或 者 按照 “ 百 位 式 读 法 ”(hundreds method) 
来 读音 〈1800 读 为 eighteen hundred) 。NTEL 把 电话 号 码 扩充 为 数字 序 
Jj; 也 可 以 把 电话 号 码 的 最 后 4 个 数字 按照 “ 双 对 式 数 字 读 法 ”(paired 
digit) 来 读音 ， 每 一 对 数字 读 为 一 个 整数 。 电 话 号 码 还 可 以 采用 所 谓 
的 “ 跟 踩 单位 读 法 ”(trailing unit) 来 读音 ， 以 知 干 个 零 为 结尾 的 数字 ， 
非 零 的 数字 部 分 按 顺 序 式 读 法 来 读音 ， 零 的 部 分 按 适 当 的 进位 制 来 读音 
(例如 ，876 一 5000 的 读音 为 eight seven six five thousand) 。 























当然 ， 这 些 扩充 很 多 是 与 方言 有 关 的 。 在 澳大利亚 的 英语 中 ， 电 话 
号 码 33 这 个 数字 序列 通常 读 为 double three。 在 其 他 语言 中 ， 非 标准 词 的 
归 一 化 会 出 现 一 些 特殊 的 困难 问题 。 例 如 ， 在 法 语 或 德语 中 ， 除 了 上 述 
的 情况 之 外 ， 归 一 化 还 与 语言 的 形态 性 质 有 关 。 在 法 语 中 ，1 fille (一 
Sao) 这 个 短语 归 一 化 为 une fille, m1 garcon 〈 一 个 小 伙 子 ) 这 个 短 
语 却 归 一 化 为 un garcon。 与 此 类 似 ， 在 德语 中 ， 由 于 名 词 的 格 的 不 同 ， 
Heinrich IV (= A VUE) 这 个 短语 可 以 分 别 归 一 化 为 Heinrich der Vierte, 


Heinrich des Vierten, Heinrich dem Vierten， 或 者 Heinrich den Vierten 等 。 














英语 中 的 专 有 名 词 也 属于 非 标 准 词 。 由 于 瑞 语 的 发 首 词 典 中 通常 不 
收 专 有 名 词 。 在 很 多 实际 的 应 用 中 ， 这 是 一 个 很 严重 的 问题 。 专 有 名 词 
包括 人 名 《人 的 名 字 和 人 的 姓氏 ) 、 地 理 名 称 〈 城 市 名 、 街 道 名 和 其 他 


的 地 名 ) 和 商业 机 构 名 称 等 。 


我 们 这 里 仅 考 虑 人 名 ，2003 年 ， 施 皮 格 尔 〈Spiegel) 估计 ， 仅 仅 在 
美国 ， 大 约 有 200 万 个 不 同 的 姓氏 和 10 万 个 名 字 。200 万 是 一 个 非常 大 的 
数字 。 正 是 由 于 这 样 的 原因 ， 大 规模 的 语音 合成 系统 都 包含 一 部 很 大 的 
专 有 名 词 的 发 音 词典 。 














完 竟 需要 多 少 个 专 有 名 词 才 算 足 够 呢 ? 


1992 年 ， 利 贝尔 曼 (Liberman) 和 有 邢 奇 公布 了 一 个 专 有 名 词 的 词 
表 ， 包 含 1987 年 从 Donnelly 市 场 组 织 收 集 的 150 万 个 专 有 名 词 CM S 
美国 的 7 200 万 个 家 庭 ) 。 








他 们 发 现 ， 在 容量 为 4 400 万 单词 的 AP newswire 语 料 库 中 ， 包 含 5 万 
个 专 有 名 词 的 词典 和 履 兰 专 有 名 词 的 词 例 数 可 以 达到 70%。 有 趣 的 是 ， 很 
多 不 包含 在 词典 中 的 其 他 专 有 名 词 可 以 通过 简单 地 修改 这 5 万 个 专 有 名 
词 而 得 到 ， 例 如 ， 给 词典 中 的 专 有 名 词 Walter 或 Lucas 加 上 和 带 中 重音 的 后 
级 ， 就 可 以 得 到 新 的 专 有 和 名词 Walters 或 Lucasville。 其 他 的 发 音 还 可 以 
通过 韵律 类 推 的 方法 得 到 。 例 如 ， 如 果 我 们 知道 人 名 Trotsky 的 发 首 ， 而 
不 知道 人 名 Plotsky 的 发 音 ， 我 们 用 词 首 的 /pl 来 蔡 换 Trotsky 词 首 的 /tr/， 
就 可 以 得 到 Plotsky 的 发 音 。 

















诸如 此 类 的 技术 ， 包 括 形态 分 解 、 类 推荐 换 、 以 及 把 未 知 的 专 有 名 
词 映 射 到 已 经 存储 在 词典 中 的 拼写 变 体 的 技术 ， 已 经 在 专 有 名 词 的 发 音 
研究 中 取得 了 一 定 的 成 绩 。 但 是 ， 总 的 说 来 ， 专 有 名 词 的 发 音 仍然 是 一 
个 困难 的 问题 。 











同形 异 义 词 的 排 皮 





上 节 所 述 的 非 标准 词 处 理 算 法 的 目的 在 于 对 于 每 一 个 非 标 准 词 
(NSWO 确定 一 个 标准 词 的 序列 ， 以 便 把 它们 读 出 来 。 然 而 有 的 时 
候 ， 尽 管 是 一 个 标准 词 ， 要 想 确 定 它 的 读音 仍然 非常 困难 。 同 形 异 义 词 
(homograph) 的 情况 就 是 如 此 。 同 形 异 义 词 是 拼写 相同 而 读音 不 同 的 
词 。 这 里 是 英语 同形 异 义 词 use, live 和 bass 的 几 个 例子 : 





It's no use (/y uw s/) to ask to use (/y uw z/) the telephone. 
Do you live (/l ih v/) near a zoo with live (/l ay v/) animals? 
I prefer bass (/b ae s/) fishing to playing the bass (/b ey s/) 


guitar. 











为 了 出 版 时 的 方便 ， 我 们 这 里 没有 采用 国际 音标 IPA 而 采用 了 
ARPAbet， 这 是 目前 计算 语言 学 中 经 常 使 用 的 一 种 非常 先进 的 标 音 方 
法 ， 与 ASCII 码 完全 兼容 ， 便 于 计算 机 进行 信息 交换 。 国 内 语言 学 界 还 
不 熟悉 ， 关 于 ARPAbet 的 详细 介绍 ， 可 参看 冯 志 伟 和 孙 乐 译 的 《自然 语 
言 处 理 综 论 》 山 。 














法 语 中 的 fils 是 同形 噶 义 词 ， 含 义 为 “儿子 ?时 ， 读 为 [fis] ， 含 义 
为 “ 线 绳 "时 ， 读 为 Df] ; 法 语 的 fier 和 est 有 多 个 发 音 ，fier 的 含义 为 “ 骄 
傲 ? 或 “信赖 ?时 ， 发 音 各 不 相同 ; est 的 含义 为 “是 ?或 东方? 时， 发 音 也 
各 不 相同 。 











焉 运 的 是 ， 同 形 寞 义 词 的 排 歧 可 以 利用 词类 信息 。 在 英语 (以 及 法 
语 和 德语 这 些 类 似 的 语言 》 中 ， 同 形 异 义 词 的 两 个 不 同 的 形式 往往 倾向 
于 分 属 不 同 的 词类 。 例 如 ， 上 例 中 use 两 个 形式 分 别 属于 名 词 和 动词 ， 











live 的 两 个 形式 分 别 属于 动词 和 名 词 。 


FINKE HH, ZEAP ” ”newswire 语料库 的 4 千 4 百 万 单词 中 ， 
出 现 频 度 最 高 的 同形 异 义 词 都 可 以 使 用 词类 信息 来 排 层 。 他 们 用 来 排 卜 


的 15 个 频 度 最 高 的 单词 是 use, increase, close, record, house, contract, lead, 








live, lives, protest, survey, project, separate, present, read. 








由 于 词类 知识 已 经 足够 处 理 很 多 同形 腊 义 词 的 排 层 问题 ， 所 以 ， 在 
实际 应 用 中 ， 我 们 对 于 标 有 词类 信息 的 这 些 同形 异 义 词 存储 不 同 的 发 
首 ， 以 便 进行 同形 寞 义 词 的 排 上 收 ， 然 后 ， 对 于 上 下 文中 给 定 的 同形 寞 义 
词 ， 运 行 词类 标注 程序 来 选择 正确 的 读音 。 














然而 ， 还 有 一 些 同形 异 义 词 的 不 同 发 音 只 对 应 于 同样 的 词类 。 在 上 
面 的 例子 中 ， 我 们 看 到 bass 的 两 个 不 同 的 发 音 b ae s/ 和 /b ey s/， 但 它们 
Hew-r4adC—TSXoB 8". oe as ANA s FS 
样 的 例子 是 lead (对 应 于 两 个 名 词 的 发 首 各 不 相同 ， 表 示 “ 导 线 ” 的 名 词 
KEAN iy d/， 表 示 “ 金 属 ” 的 名 词 的 发 音 为 /| eh d) 。 我 们 也 可 以 把 茶 
些 缩写 词 的 排 玻 《前 面 我 们 把 这 样 的 排 政 看 成 是 非 标准 词 的 排 夏 ) 看 成 
是 同形 异 义 词 的 排 上 收 。 例 如 ,， “Dr.” 具 有 doctor (博士 ) drive (4538) 
IY; “St.” 具 有 Saint 〈 神 圣 ) Stree (EH) 歧义 。 最 后 ， 还 有 一 些 
单词 的 大 写字 母 有 差别 ， 如 polish/Polish， 这 些 单词 仅 只 在 句子 开头 或 
全 部 字母 都 大 写 的 文本 中 才 可 以 看 成 同形 异 义 词 。 




















在 实际 应 用 中 ， 后 面 这 几 种 同形 异 义 词 是 不 能 使 用 词类 信息 来 解决 
的 ， 在 语 首 合成 系统 中 通常 可 以 忽略 。 男 外 ， 我 们 也 可 以 尝试 使 用 词义 
排 皮 算法 来 解决 这 样 的 问题 ， 例 如 ， 我 们 可 以 使 用 雅 罗 夫 斯 其 (1997) 
的 决策 表 (decision-list〉 算 法 来 排 歧 。 


最 后 ， 数 字 的 发 音 是 一 个 特别 复杂 的 问题 。 电 话 号 码 “947-2020” 的 
最 目 然 的 读音 大 概 应 该 


te “nine’”—“four”—“seven”—“twenty”—“twenty”, TA 


te “nine’”—“four”—“seven”—“two”—“zero”—“two”—“zero” . 


Al) WU AR se AV ay TE DET BB CE UH ALI UI BTS: 


e 顺序 式 读 法 (Serial) : 每 个 数字 单独 读音 。 例 如 ，8765 的 读音 


为 “eight seven six five". 


e 组 合式 读 法 (Combined) : 数字 串 按照 一 个 整数 来 读音 ， 每 个 数 
字 根 据 它 所 在 的 位 置 分 别 加 读 “thousand、hundred” 等 进位 数 。 例 如 ， 
8765 的 读音 为 “eight thousand seven hundred sixty five”。 





e 双 对 式 读 法 (Paired) : 数字 一 对 一 对 地 按 一 个 整数 来 读音 ; 如 
果 数 字 有 奇数 个 ， 则 第 一 个 数字 单独 读音 。 例 如 ，8765 的 读音 
为 “eighty-seven sixty-five” . 


e 百 位 式 读 法 (Hundreds〉: 四 位 的 数字 串 可 按 百 位 记 数 方式 来 读 
音 。 例 如 ，8765 的 读音 为 “eighty-seven hundred (and) sixty-five”. 


e 跟踪 单位 读 法 (Trailing Unit) : 以 若干 个 零 为 结尾 的 数字 ， 非 零 


的 数字 部 分 按 顺 序 式 恋 法 来 读音 ， 和 去 的 部 分 按 适 当 的 进位 制 来 读音 。 例 
如 ，8765000 的 读音 为 “eight seven six five thousand”。 











上 面 我 们 介绍 了 英语 文本 归 一 化 的 一 些 主要 研究 成 果 ， 下 面 ， 我 们 
来 看 一 看 在 汉语 语音 合成 中 的 书面 文本 归 一 化 问题 。 





汉语 书面 文本 的 归 一 化 实际 上 是 在 自然 语言 信息 处 理 中 的 语言 规划 
问题 ， 我 们 提出 这 个 问题 的 目的 ， 是 为 了 引起 我 国 的 语言 规划 专家 在 关 


注 社会 生活 中 的 语言 规划 问题 的 同时 ， 也 关注 一 下 自然 语言 信息 处 理 中 
的 语言 规划 问题 。 


我 们 认为 ， 汉 语 的 文本 归 一 化 与 英语 的 文本 归 一 化 是 相似 的 ， 在 汉 
语 的 文本 归 一 化 中 ， 也 存在 词 例 还 原 ， 非 标准 词 处 理 ， 同 形 异 义 词 处 理 
等 问题 。 下 面 逐 一 说 明 。 


— 汉语 文本 的 词 例 还 原 


汉语 的 书面 文本 是 一 个 连续 的 汉字 流 ， 除 了 标点 符号 之 外 ， 单 词 与 
单词 之 间 没 有 空 日 。 在 语音 合成 中 ， 为 了 识别 汉语 的 单词 以 便 得 询 发 音 
词典 ， 必 须 把 隐藏 在 汉语 书面 文本 中 的 单词 找 出 来 ， 也 就 是 要 进行 “ 切 
ig" Cword segmentation) 。“ 切 词 * 是 汉语 书面 文本 归 一 化 的 关键 问题 ， 
也 是 中 文 信息 处 理 的 一 个 困难 问题 。 关 于 汉语 书面 文本 的 上 自动 切 词 ， 很 
BLE WAST ZA, EMAAR T . 








在 经 过 切 词 处 理 后 输出 的 文件 中 ， 汉 语 单词 边界 用 空格 pace) 
表示 ， 要 特别 注意 人 名 、 地 名 和 机 构 名 以 及 术语 的 切 词 是 人 否 正确 ， 应 当 
遵照 《汉语 拼音 正 词法 基本 规则 》《GB13725 信 息 处 理 用 现代 汉语 分 词 
规范 》 每 规范 进行 判断 ， 为 波形 合成 做 好 准备 。 


一 一 汉语 文本 的 非 标 准 词 处 理 





汉语 书面 文本 中 的 非 标 准 词 是 诸如 数字 或 专 有 名 词 之 类 的 词 ， 它 们 





的 读音 比较 特殊 ， 一 般 不 会 存储 在 发 音 词 典 中 ， 在 语音 合成 中 ， 在 计算 
机 读 出 它们 之 前 ， 需 要 注 出 它们 的 读 首 。 





汉语 的 非 标准 词 包 括 如 下 儿 种 : 





e 有 具有 特殊 读 首 的 姓氏 字 : 英语 中 的 专 有 名 词 是 很 重要 的 非 标 准 
词 。 在 汉语 中 ， 姓 氏 字 也 可 以 看 成 表示 姓氏 的 词 ， 所 以 ， 也 是 一 种 非 标 
准 词 ， 在 语音 合成 时 ， 要 区 别 姓氏 字 的 特殊 读音 。 如 ,“ 曾 国 注 ” 和 “ 曾 
经 ”中 的 “ 曾 ” 字 ， 前 者 是 姓氏 字 ， 读 为 Dzengl] ， 后 者 是 一 个 语素 ， 读 
为 [ceng2] Hl, 


例句 : 





记者 带 着 这 个 问题 采访 了 中 国 食 文化 研究 会 会 长 曾 老 。 这 位 75 
岁 老 人 曾 参加 八路 军 ， 四 面 八方 都 到 过 。 


其 中 的 两 个 “ 曾 ”， 第 一 个 “ 曾 ” 是 姓氏 ， 应 读 为 [zeng1] ， 后 一 
个 “ 曾 ” 应 读 为 [ceng2] 。 


Main, “AZ” (AB) 和 “仇恨 ?中 的 “ 仇 >”， 前 者 是 姓氏 ， 读 为 
[qiu2] ， 后 者 读 为 Lchou2] 。 


例句 : 
TE ANSE ED ASE, EREN 
其 中 的 “ 仇 ? 是 姓氏 ， 应 读 为 [qiu2] 。 


e 数字 : 


汉语 中 的 数字 也 是 很 重要 的 非 标准 词 。 


对 于 汉语 书面 文本 中 的 数字 串 ， 应 区 分 它们 的 进位 制 ， 按 汉语 习惯 
以 亿 、 万 、 干 、 百 、 十 为 单位 读 出 ， 如 1,254,000,000 应 读 成 “十 二 亿 五 干 
WAA Lshi2 er4 yi4 wu3 qian1 si4 bai3 wan4] ”。 


例句 : 
这 片 林子 共有 14 000 棵 树 。 





其 中 的 14 000 应 读 为 “一 万 四 于 Lyil wan4 si4 qian1] ” 





e 年代、 时间、 电话 号 码 、 百 分 比 、 分 数 和 小 数 : 要 区 分 汉语 书面 
文本 中 年 代 、 时 间 、 电 话 号 码 和 特殊 数字 表示 的 顺序 式 读 法 和 进位 制 读 
法 以 及 茶 些 特殊 读 法 ， 并 要 处 理 全 角 的 数字 符号 。 


例句 : 
食 源 开发 和 物种 驯化 ， 中 国 在 4000 年 前 就 开始 进行 。” 


其 中 的 “4000 年 "应 读 为 “四 于 年 Lsi4 qian1 nian2」”， 玉 用 进位 制 读 





美 联 社 16 日 报道 了 中 国 首位 进入 太空 的 宇航 员 安 全 返回 地 面 。 
报道 说 ， 在 环绕 地 球 21 个 小 时 后 ， 航 天 飞船 按 计 划 准 时 着 陆 。 中 
的 指挥 控制 中 心 宣布 : 中 国 首 次 载 人 航天 飞行 获得 圆满 成 功 。 报 道 
说 ， 这 次 飞行 的 圆满 完成 是 中 国 11 年 载 人 航天 计划 取得 的 最 高 成 
就 ， 也 古 中 国 启 得 世界 声望 的 象征 。 











其 中 的 “16” 应 读 为 “十 六 [shi2 liu4]”，“21” 应 读 为 “二 十 一 Ler4 


shi2 yi1] ”，*“11” 应 读 为 “十 一 [shi2 yil] ”， 都 采用 进位 制 读 法 。 
秦 朝 建立 于 公元 前 221 年 。 


其 中 的 “221 年 > 应 读 为 “两 百 二 十 一 年 [liang3 bai3 er4 shi2 yil 
nian2] ”， 采 用 进位 制 读 法 。 


“马克 思 生 于 1818 年 。” 


其 中 的 “1818 年 ”应 读 为 “一 八 一 八 年 [yil bal yil bal nian2] ”， 采 
用 顺序 式 读 法 。 


“研讨 会 定 于 12 月 23 日 上 午 9:35 开 幕 。” 


其 中 的 “12”，“23” 都 采用 进位 制 读 法 ， 分 别 读 为 “十 二 Lshi2 
er4] ”和 “二 十 三 [er4 shi2 san1] ” “9:35” 表 示 时 点 ， 应 读 为 “ 九 点 三 十 
五 分 Ljiu3 dian3 san1 shi2 wu3 fen1] ”。 


“旅游 投诉 电话 是 9258。” 


其 中 的 9258 应 读 为 “ 九 二 五 八 [jiu3 er4 wu3 bal] ”， 采 用 顺序 式 读 
es 


有 80% 的 家 庭 主 妇 对 一 日 三 餐 感 到 头疼 。 


其 中 的 “80%” 应 读 为 “ 百 分 之 八 十 Lbai2 fenl zhil bal shi2] ". QF 
: 这 里 的 80% 是 全 角 的 数字 符号 ) 


Es 





美国 太空 发 展 经 费 占 全 球 约 80.29%6。 


其 中 的 “80:2%” 应 读 为 “ 百 分 之 八 十 点 二 [bai2 fent zhil bal shi2 


dian3 er4] ”( 注 意 : 这 里 的 80.2% 是 全 角 的 数字 符号 ) 
他 的 年 龄 是 我 的 1/2。 
其 中 的 “1/2” 应 读 为 “二 分 之 一 [er2 fenl zhil yil] ”。 
2/5 等 于 0.4。 


其 中 的 “2/5” 应 读 为 “五 分 之 二 ”， “0.4” 应 读 为 “零点 四 [ling2  dian3 
| n 


我 将 住 5 一 8 天 。 


其 中 的 “5 一 8" 应 读 为 “五 到 八 [wu3 dao4 bal] ?或 者 “五 至 八 [wu3 
zhi4 bal | ”。 








e 符号 与 单位 : 对 符号 和 单位 ， 有 中 文法 定 计 量 单位 的 应 给 出 相应 
的 拼音 形 式 ， 并 按照 汉语 普通 话 读音 ， 读 首 应 遵照 《关于 在 我 国 统一 实 
行 法 定 计 量 单位 的 命令 》 《1984 年 ) 的 规定 ;一 般 外 文 符 号 可 按 原文 给 
出 ， 按 照 原文 读音 。 











例句 : 


1987 年 七 月 肯德基 前 门 餐厅 开业 ， 门 脸 儿 招牌 上 KFC 三 个 大 
字 ， 远 远 儿 就 瞧见 了 。 顾 客 排队 最 长 达 20 ë m, FEMELA 
000 4 000 人 ， 真 有 人 驱车 20 km 从 通 县 来 的 ， 够 火 的 吧 ! 


其 中 的 “20 m” 应 读 为 “二 十 米 [er4 shi2 mi3] ”; “20 km* 应 读 为 “二 
十 公里 [er4 shi2 gong1 li3] ”。 


中 国 选手 获得 男子 举重 60 kg 级 冠军 。 


其 中 60 kg 的 应 读 为 "六 十 公斤 [liu4 shi2 gongl jin1] ” 
声音 在 空气 中 传播 的 速度 是 340 米 / 秒 。 


其 中 的 “340 米 / 秒 ” 应 读 为 “三 百 四 十 米 每 秒 [sani bai3 si4 shi2 mi3 


mei3 miao3 | ”。 





比热容 单位 (焦耳 每 千克 开尔文 ) 的 国际 符号 是 ]/ Ckg.KO . 
其 中 的 J (kg.K)〉 应 按 英 文字 母 读 音 。 
e 以 西 文字 母 开 头 的 词语 : 以 西 文字 母 开 头 的 词语 有 的 是 借词 ， 有 
的 是 外 语 缩 略语 ， 其 中 的 西 文字 母 部 分 按 西 文 读音 ， 汉 字 部 分 按 汉语 普 
通话 读音 。 例 如 ,， “oa 粒子" 应 读 为 Lalfa lid zi3] ,“B 超 ”应 读 为 LB 
chaol] ，“ATM 机 ”应 读 为 LATM jil] 。 





e 专 有 名 词 的 读 首 : 专 有 名 词 是 文 语 转换 中 的 一 个 困难 问题 ， 词 典 
中 不 可 能 事 和 匈 列 举 出 汉语 中 的 一 切 专 有 名 词 ， 专 有 名 词 还 可 能 来 自 其 他 
语言 ， 而 且 还 可 能 有 不 同 的 拼写 方法 。 语 音 合成 和 文 语 转换 的 很 多 应 用 
都 是 与 专 有 名 词 分 不 开 的 ; 例如 ， 在 与 电话 有 关 的 应 用 中 ， 电 话 短 和 打 
电话 都 离 不 开 人 名 和 地 名 。 汉 语 专 有 名 词 有 的 读音 很 特殊 ， 应 该 注意 区 
别 。 例 如 ,“ 单 ”作为 姓 时 应 读 为 Dshan4] ， 不 能 读 为 [dan1] 。 地 
APART DIA Lzongl] ， 不 能 读 为 [cong1] 。 











e 专业 术语 的 读音 : 把 语音 技术 应 用 于 不 同 的 专业 领域 需要 正确 处 
理 专 业 术 语 的 读 首 。 例 如 ， 地 貌 学 术语 “ 渴 湖 ”( 浅 水 海湾 因 湾 口 被 淤积 
Febr PITT TÉ ESSE). 中 的 “ 渴 * 应 读 为 [xi4] ， 不 该 为 [xie4] 。 


一 一 汉语 文本 的 同形 异 义 字 (多 音 
字 ) 处 理 








同形 异 义 词 在 汉语 书面 文本 中 表现 为 同形 异 义 字 。 在 汉语 中 ， 同 形 
异 义 字 也 就 是 多 音字 。 在 语音 合成 中 ， 要 根据 上 下 文 条 件 的 不 同 ， 在 输 
出 的 拼音 文件 中 对 多 音字 给 出 不 同 的 拼音 。 例 如 , “参加 ”和 “参差 中 
的 “ 参 ”， 前 者 读 为 Lcan1」 ， 后 者 读 为 [cen1] ; “行军 ?和 “银行 > 中 
的 “ 行 ”， 前 者 读 为 [xing2」， 后 者 读 为 Lhang2」;“ 长 江 ” 和 “局 长 ”中 
的 “长 >， 前 者 读 为 [chang2] ， 后 者 读 为 [zhang3] 。 














一 一 汉语 语音 合成 中 特殊 韵律 现象 的 
处 理 


以 上 我 们 讨论 了 汉语 书面 文本 归 一 化 中 的 主要 问题 。 此 外 ， 我 们 还 
要 注意 汉语 的 韵律 〈prosody) 。 韵 律 与 汉语 文本 的 归 一 化 有 密切 联 
系 。 汉 语 是 有 声调 的 语言 ， 在 汉语 语音 合成 中 ， 必 须 注意 变调 、 轻 声 等 
汉语 的 特殊 韵律 现象 的 处 理 。 儿 化 具有 区 别 意 义 和 表 达 感 情 的 作用 ， 与 
韵律 有 关 ， 在 汉语 书面 文本 归 一 化 时 也 要 注意 处 理 。 





e “一 “不 ”的 读音 : 现 有 的 用 于 语音 处 理 的 汉语 发 音 词典 还 没有 很 
好 的 模型 来 处 理 “ 一 “不 ”等 字 的 读 首 。 这 是 因为 这 些 字 发 首 变 化 的 语 首 
上 下 文 环 境 很 复杂 。 一 般 在 发 音 词 典 中 只 包含 某 些 最 基本 的 形式 〈 例 
如 “一 ”的 发 音 为 [yilj ) ， 在 语音 合成 中 ， 要 使 用 相应 的 算法 根据 上 下 
文 推出 它们 的 发 音 变 体 。 














一 一 “一 ”在 非 去 声 前 变 为 去 声 。 例 如 ， 


在 阴平 前 : 一 天 Lyi4tian1」 一 般 Lyi4ban1」 一 边 
Lyidbiand] 一 生 [yi4shengl | 


在 阳平 前 : 一 时 Lyi4shi2] 一 齐 Lyi4qi2] 一 直 [yi4zhi2 ] 
一 头 [yi4tou2 ] 


在 上 声 前 : 一 手 Lyi4shou3] 一 起 [yi4qi3] 一 举 
[ yi4ju3 ] 一 品 [yi4pin3 | 








一 一 “一 ”“ 不 ”在 去 声 前 变 为 阳平 。 例 如 ， 


一 半 [yi2band]  — 3E [yi2ding4] 一 再 [yi2zai4] — 
[ yi2guan4 | 


不 论 Lbu2lun4] 不 但 [bu2dan4d] 不 幸 [buzxinga] 不 愧 
[ bu2kui4 ] 





Fe HE ase IN AE Jute. DUO, 


想 一 想 [xiang4yi0xiang4] 看 一 看 [kan4yi0kan4] 问 一 问 
[ wen4yi0wen4 | 


差不多 [chatbuüduo1] 好 不 好 [hao4buOhao4] 47447 
Lxing2bu0xing2 | 





e 上 声 变 调 : 上 声 在 语 流 中 发 生 音 变 ， 在 语音 合成 中 ， 这 种 语 流 首 
变 十 分 复杂 ， 也 要 使 用 相应 的 算法 根据 上 下 文 推 出 它们 的 发 音 变 体 ， 主 
要 应 处 理 如 下 的 现象 。 











一 一 上 声 在 非 上 声 〈《 阴 平 、 阳 平 、 去 声 ) 前 一 律 变 为 平 上 ， 调 值 由 
原来 的 [214] 变 为 [21]， 只 降 不 升 。 例 如 ,“ 有 影 性， 影评， 影印 ”中 
的 “ 影 " 应 读 为 平 上 。 





— 上 声 在 上 声 前 (上 上 相连 ) ， 前 一 个 上 声 变 得 像 阳平 ， 调 值 由 
[214] 变 为 [24] ， 只 升 不 降 。 例 如 , “本领 ， 讲 解 ， 导 演 ” 中 的 “本 ， 
讲 ， 导 ” 调 值 为 [24] 。 





e HERRE: 普通 话 的 轻声 具有 区 别 意义 的 作用 ， 在 语 首 合成 
中 ， 应 当 注 意 如 下 要 点 : 


一 一 辨 义 轻声 ;同一 个 汉字 ， 由 于 是 否 读 轻声 而 导致 语义 不 同 。 例 


a, “老子 ” 读 轻 声 时 表示 骄傲 的 自称 ， 不 读 轻 声 时 表示 古代 人 名 或 书 


一 一 连接 词 “和 ” 读 为 轻声 。 


一 一 助词 “的 、 地 、 得 ” 读 为 轻声 。 








一 方位 结构 中 的 非 中 心音 节 读 为 轻声 ， 例 如 ，“ 眼 里 、 手 上 、 乡 
下 "中 的 “里 、 上 、 下 * 读 为 轻声 。 


一 一 双 字 重 登 的 指 人 名 词 ， 后 一 个 音节 读 为 轻声 。 例 如 , “哥哥 、 
Qu. EXe"UBE—4 BW. B. eA 








一 一 单 首 节 动词 重合 式 的 后 一 个 音节 读 为 轻声 。 例 如 ,“ 看 看 、 洗 
洗 、 说 说 ”中 的 后 一 个 首 市 “看 、 洗 、 读 ” 读 为 轻声 。 











e 儿 化 的 读音 : 儿 化 首 对 于 语 首 合 成 的 目 然 度 有 重要 的 作用 ， 在 语 
首 合 成 中 ， 应 当 对 儿 化 进行 系统 化 的 处 理 ， 这 也 是 汉语 文本 归 一 化 应 当 


注意 的 问题 : 
一 一 对 于 有 区 别 意义 作用 的 儿 化 词 ， 必 须 按 儿 化 读音 。 例 如 ， 


信 (表示 “信件 ”) AB JL (表示 “消息 ”) 





X Gelder) IIL (表示 “领头 的 人 ”) 

一 对 于 有 区 别 词性 作用 的 儿 化 词 ， 必 须 按 儿 化 读音 。 例 如 ， 
盖 (动词 ) — 盖 儿 《名 词 ) 

R (形容 词 ) RIL (名 词 ) 


一 一 对 于 表示 感情 色彩 的 儿 化 词 ， 尽 量 按 儿 化 读音 。 例 如 ， 





小 孩 一 一 小 孩儿 


好 玩 一 一 好 玩 儿 





语音 词典 中 ， 应 当 对 上 述 儿 化 词 一 一 标注 其 拼音 ， 儿 化 词 中 的 
音节 数 等 于 汉字 字数 减 一 。 例 如 , “和 花 儿 ”应 标注 为 [huaer] ， 其 音节 
数 为 1。 





一 一 当 上 自动 切 词 得 到 后 级“ 儿 * 时 ， 将 “ 儿 ” 与 前 面 的 单词 合并 ， 并 把 
前 面 单词 的 最 后 一 个 音节 儿 化 ， 语 音 合 成 时 “ 儿 ? 不 再 发 音 。 





非 儿 化 词 中 的 “ 儿 ” 应 当 单 独 读 成 一 个 音节 。 例 如 , “孤儿 、 
男儿 、 混 血 儿 ” 中 的 “ 儿 ”， 都 应 当 读 成 一 个 音节 ， 不 能 儿 化 。 





对 于 汉语 语音 合成 中 文本 归 一 化 问题 ， 我 国语 言 学 界 似乎 还 没有 进 








行 过 深入 研究 ， 值 得 我 们 关注 。 


"B— H ” 语 首 目 动 识别 


早 在 20 世 纪 初 ， 国 外 就 有 学 者 研究 过 语音 上 自动 识别 (Automatic 
Speech Recognition， 简 称 ASR〉 问 题 。20 世 纪 40 年 代 电 子 计算 机 还 没有 
HELE, CRRA (Potter) 就 提出 了 “看 得 见 的 语音 ”(visible speech) 的 
概念 ， 他 用 电子 仪器 把 语音 表示 为 肉眼 可 见 的 声 谱 ， 使 人 们 能 够 根据 声 
谱 来 辨识 不 同 的 语音 ， 这 可 以 说 是 语 首 识 别 的 先 声 。 











电子 计算 机 问世 后 ，20 世 纪 60 年 代 进 行 过 英语 离散 单词 的 识别 研 
究 ， 取 得 了 初步 的 成 绩 。 但 是 ， 用 电子 计算 机 进行 大 规模 的 语音 识别 研 
究 ， 则 是 从 20 世 纪 70 年 代 才 开始 的 。1971 年 ， 美 国 国防 部 的 高 级 研究 规 
划 署 (Advanced Research Projects Agency， 人 简称 ARPA) 提出 了 为 期 五 
年 的 英语 语音 识别 大 型 研究 计划 ， 这 个 计划 叫做 SUR (Speech 
Understanding Research 的 人 简称， 含义 为 “口语 理解 研究 ”) ，ARPA 的 
SUR 计 划 委 托 卡 内 基 - 梅 隆 大 学 (Carnegie-Mellon University) ， 
BBN (Bolt, Beranek & Newman) 公司 负责 ， 分 别 进行 系统 的 开发 。 五 
年 中 ， 卡 内 基 一 梅 隆 大 学 研制 出 HEARSAY、DRAGON、HARPY 等 系 
统 ，BBN 公 司 研制 出 SPEECHLIS、HWIM 等 系统 。 这 些 系统 都 达到 了 预 
定 的 有 限 的 目标 。 例 如 ，HWIM 系 统 可 以 识别 三 个 男性 发 音 人 的 英语 口 
呼 ， 包 含 单 词 1097 个 ， 应 用 于 旅游 管理 中 。HEARSAY 有 两 个 系统 ， 先 
建成 HEARSAY I， 随 后 进一步 改进 ， 于 1976 年 建成 HEARSAY I， 以 文 
件 检 索 为 主题 ， 包 含 单词 1011 个 ， 可 以 识别 一 个 男性 发 音 人 的 英语 口 
呼 。HARPY 的 主题 是 文件 检索 ， 包 含 单 词 1011 个 ， 可 以 识别 三 个 男性 
发 音 人 和 两 个 女性 发 音 人 的 英语 口 呼 。 此 外 ， 美 国 的 SRI 公 司 、SDC 公 
司 、IBM 人 公司、 贝尔 实验 室 、 林 肯 实 验 室 、 言 语 通信 研究 实验 室 、 法 国 

















的 南 锡 大 学 、 意 大 利 的 都 灵 大 学 、 日 本 的 京都 大 学 、 京 都 工艺 纤维 大 
学 、 山 梨 大 学 、 电 电 公 社 武藏 野 通 研 等 ， 也 都 开展 了 语音 识别 的 研究 。 





语音 自动 识别 主要 的 应 用 领域 有 : 


e 人 机 交互 : 语音 目 动 识别 的 一 个 重要 的 应 用 领域 是 人 和 计算 机 的 
交互 。 人 机 交互 的 很 多 任务 已 经 可 以 采用 可 视 的 和 可 指 的 界面 来 解决 ， 
但 是 ， 对 于 那些 完全 用 上 自然 语言 交际 的 任务 ， 对 于 那些 不 适合 使 用 键盘 
的 任务 ， 与 键盘 相 比 ， 语 音 古 一 个 潜在 的 和 比较 好 的 界面 。 这 些 任务 包 
括 手 和 眼 用 得 多 的 领域 ， 这 时 用 尸 要 用 手 或 眼 来 操作 目标 或 装备 目标 以 
便 控 制 它们 ， 如 果 采 用 语音 目 动 识别 技术 ， 就 可 以 通过 语音 来 控制 。 








e 电话 和 手机 : 语音 自动 识别 的 另外 一 个 应 用 领域 是 电话 。 在 这 个 
领域 ， 语 音 识 别 已 经 在 一 些 方面 得 到 使 用 ， 例 如 ， 口 呼 数字 输入 ， 识 
别 “yes” 以 便 接收 集体 呼叫 ， 查 找 有 关 飞 机 或 火车 的 信息 ， 还 有 呼叫 路 
径 选 择 〈(“Accounting, please" | i$ Zi | , “Prof. Regier, Please" [Regier 
教授 ， 请 」】) ， 在 手机 使 用 中 ， 口 呼 人 名 进行 号 码 呼叫 。 在 某 些 应 用 
中 ， 结 合 语音 和 指示 的 多 模 态 界面 比 没有 语音 的 图 形 用 户 界 面 更 加 有 
效 。 








e ASUS: 语音 自动 识别 还 可 以 应 用 于 自动 听写 〈dictation ) ， 
也 就 是 把 一 个 特定 的 单独 的 说 话 人 口授 的 比较 长 的 独白 转 写成 文字 。 口 
授 在 法 律 领域 使 用 很 普遍， 它 也 可 以 作为 增强 交际 的 一 个 重要 部 分 ， 在 
计算 机 和 那些 不 能 打字 或 者 不 能 说 话 的 残疾 人 之 间 进 行 交 互 。 著 名 诗人 
弥 尔 顿 (Milton〉 失 明之 后 ， 曾 经 给 他 女儿 口授 了 人 《 失 乐 园 》， 这 已 经 
成 为 还 遐 闻 名 的 佳话 。 作 家 詹姆斯 (Henry James) 在 受 重 伤 之 后 ， 口 授 
了 他 晚期 的 一 些小 说 ， 这 也 是 众所周知 的 事实 。 如 果 有 语音 自动 识别 系 
统 ， 他 们 就 不 必 那 样 艰 苗 地 工作 了 。 





在 我 国 ， 语 音 上 自动 识别 技术 在 铁路 、 民 用 航空 部 门 用 来 建立 人 机 对 
话 的 无 人 管理 问讯 处 ， 在 公安 机 关 用 来 做 “ 声 纹 ? 刑 事 侦破 系统 ， 在 军事 
院 校 用 作 口 呼 语音 的 训练 与 指挥 系统 ， 在 目 然 语 言 处 理 中 ， 语 音 目 动 识 
别 用 于 由 语音 直接 输入 输出 的 机 露 翻译 系统 。 此 外 ， 语 音 上 自动 识 别 扩 术 
还 被 用 于 汉字 的 语音 输入 ， 采 用 语音 识别 技术 ， 只 要 读 出 汉字 的 字音 ， 
就 可 以 把 汉字 输入 计算 机 。 这 是 一 种 最 自然 、 最 理想 的 汉字 输入 方法 。 








语音 的 自动 识别 可 以 分 为 如 下 九 种 类 型 ; 





(1) 特定 说 话 者 小 词汇 量 离散 单词 识别 : 预先 由 说 话 者 发 出 几 十 
个 离散 单词 的 声音 ， 并 将 其 记录 在 计算 机 中 ， 作 为 标准 模式 。 计 算 机 只 
能 识别 这 个 说 话 者 的 声 普 。 识 别 时 ， 首 先 对 输入 的 特定 说 话 者 的 声 首 i 
行 语 首 分 析 ， 抽 出 其 特征 参数 ， 然 后 把 这 些 特征 参数 同 已 存 迪 在 计算 机 
中 的 标准 模式 相 匹 配 ， 从 而 达到 有 目 动 识别 的 目的 。 








(20 特定 说 话 者 大 词汇 量 离散 单词 识别 : 这 种 类 型 的 语音 识别 有 
相当 难度 ， 词 汇 量 从 几 千 到 几 万 ， 识 别 时 极 易 混 消 。 








(3) 非特 定 说 话 者 小 词汇 量 离 散 单 词 识别 : 这 种 类 型 的 语音 识别 
不 认 人 ， 可 识别 不 同 的 说 话 者 的 声音 。 由 于 说 话 者 个 人 的 语音 音色 的 差 
别 、 方 言 的 差别 ， 研 制 起 来 有 相当 的 难度 。 由 于 说 话 者 的 发 首 各 有 差 
别 ， 系 统 要 做 到 谁 说 都 能 听 履 ， 应 该 具备 特殊 的 功能 ， 使 得 系统 能 够 获 
取 众 多 说 话 者 的 共性 特征 ， 并 在 处 理 中 加 以 强化 ， 使 同一 语音 的 特征 
(不 管 是 谁 说 的 ) 有 尽 可 能 高 的 稳定 性 ， 对 不 同 的 语音 有 尽 可 能 大 的 区 
别 度 。 











(4) 非特 定 说 话 者 大 词汇 量 离散 单词 识别 : 这 种 类 型 的 语音 识别 
与 3) 比较 ， 由 于 要 识别 的 词汇 量 大 ， 其 难度 又 上 了 一 个 合 阶 。 


(5) 特定 说 话 者 小 词汇 量 连续 语音 识别 : 这 种 类 型 的 语音 识别 与 
上 述 孤 立 蛙 词 识别 的 最 大 区 别 是 ， 特 定 说 话 者 不 是 一 词 一 顿 地 发 首 ， 而 
古 整 个 句子 连续 地 发 首 。 系 统 “ 听 ” 到 的 不 是 个 别 的 字 或 词 ， 而 是 整 句 
话 。 这 就 要 求 系统 起 码 要 具备 两 种 能 力 : 一 是 处 理 “ 音 变 ” 问 题 的 能 
因为 首 变 是 由 连 读 造成 的 ， 二 是 使 用 语法 、 语 义 的 知识 分 析 句 子 从 而 得 
出 正确 识别 结果 的 能 











(6) 特定 说 话 者 大 词汇 量 连续 语音 识别 : 这 种 类 型 的 语音 识别 在 
MERE EME O 上 了 一 个 台阶 。 这 样 的 语音 识别 系统 的 构 词 量 与 造句 
量 数 以 万 计 ， 必 须 有 强大 的 知识 库 来 文 撑 。 


二 


(7) 非特 定 说 话 者 小 词汇 量 连续 语音 识 妃 


o 





c— 


(8) SPREE UG Au EXESRHB I WS 


o 


5 (5) JHEG, HF 0C 、 © 两 种 类 型 的 语音 识别 是 不 认 人 
的 ， 其 难度 更 大 ， 可 以 说 是 难 上 加 难 。 


(9) 说 话 者 辨认 : 这 方面 的 研究 可 以 分 为 说 话 者 识别 (speaker 
identification) 和 说 话 者 检验 (speaker verification) 两 种 。 说 话 者 识别 
就 是 把 未 知 的 声音 同 预先 登录 在 计算 机 中 的 各 说 话 者 的 声音 相 比 较 ， 判 
定 这 未 知 的 声音 是 哪 一 个 说 话 者 的 声音 。 说 话 者 检验 就 是 把 未 知 的 声音 
同 预先 登录 在 计算 机 中 的 某 个 说 话 者 的 标准 模式 相 比 较 ， 判 明 这 未 知 的 
声音 是 不 是 这 个 说 话 者 的 声音 ， 这 就 是 所 谓 的 “ 声 纹 判定 ”。 声 音 中 所 含 
的 个 人 特征 的 信息 ， 起 因 于 声带 等 先天 发 音 器 官 的 个 人 差别 ， 也 起 因 于 
方言 、 土 语 等 后 天 的 发 首 因 素 ， 这 些 个 人 特征 信息 主要 表现 为 振幅 、 基 
频 、 短 时 间 波 谱 等 特征 参数 ， 而 这 些 特征 参数 常常 会 随 着 时 间 的 变化 而 
变化 。 为 了 提高 识别 率 ， 必 须 尽 量 排除 时 间 变 化 对 特征 参数 的 影响 。 






































语音 自动 识别 在 技术 上 需要 解决 两 个 主要 问题 : 


第 一 ， 语 音 自动 识别 系统 要 抽取 能 够 表征 语音 的 参数 ， 目 前 使 用 较 
多 的 语音 特征 参数 有 ， 通道 滤波 器 组 输出 的 频谱 ， 线 性 预测 参数 ， 倒 庶 
系数 ， 短 时 能 量 ， 短 时 过 零 率 等 。 





第 二 ， 建 并 语音 识别 系统 的 数学 模型 ， 寻 找 优化 的 识别 方法 和 处 理 
手段 。 目 前 使 用 的 语音 自动 识别 方法 有 三 种 : 一 是 基于 动态 规划 
(Dynamic Programming， 简 称 DP) 的 模式 匹配 方法 ， 二 是 基于 概率 统 
计 理 论 的 隐 马 尔 可 夫 模 型 (Hidden Markov Model， 简 称 HMM ) 方法 ， 
三 是 人 工 神经 网 络 (Neural Network， 简 称 NN) 方法 。 这 三 种 方法 目前 
都 有 人 在 研究 。 











我 们 这 里 简单 地 介绍 基于 概率 统计 理论 的 隐 马 尔 可 夫 模 型 的 方法 。 


语 首 识别 的 任务 是 取 声 学 波形 作为 输入 ， 产 生 单 词 串 作为 输出 。 基 
于 概率 统计 理论 的 隐 马 尔 可 夫 模 型 (HMM) 的 语音 识别 系统 是 使 用 “ 噪 
声 信道 模型 ”(noisy channel model) 来 实现 这 个 任务 的 。 


噪声 信道 模型 的 直 党 是 : 把 语 首 的 声学 波形 看 成 是 单词 串 的 一 
个 “噪声 ”版 本 ， 这 个 版 本 通过 了 一 个 有 噪声 的 通信 信道 Cnoisy 
channel) 。 由 于 这 个 信道 导入 了 “噪声 ”(noise) ， 使 得 系统 在 识别 “ 真 
正 ” 的 单词 串 时 产生 困难 。 我 们 的 目标 在 于 建立 一 个 信道 的 模型 ， 通 过 
计算 ， 了解 到 这 个 信道 究竟 是 怎样 修改 了 “真正 ”的 句子 ， 从 而 恢复 这 个 
人 句子。 如 图 18.2 所 示 。 
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图 18.2 ”语音 识别 的 噪声 信道 模型 

















在 图 18.2 中 ， 我 们 搜索 一 个 很 大 的 潜在 的 “ 源 句 子 ”(source 
sentence) 空间 ， 并 选择 在 生成 “噪声 句子 ”(noisy sentence) 时 具有 最 大 
概率 的 句子 。 为 此 ， 需 要 一 个 解码 器 (decoder) ， 对 源 句 子 进行 猜测 

(guess at source) ， 找 出 概率 最 大 的 源 句 子 作为 语音 识别 的 结果 。 在 图 
18.2 中 ， 识 别 结果 就 是 “If music be the food of love ...” 这 个 鼎 具 浪漫 色彩 
的 句子 。 








我 国 在 离散 单词 、 简 单口 令 的 语 首 识 别 方面 已 经 取得 不 少 进 展 。 中 
国 科学 院 声 学 研究 所 于 20 世 纪 50 年 代 后 期 于 研制 出 汉语 单元 音 识 别 装 
置 。220 世 纪 60 年 代 对 汉语 的 清晰 度 进行 过 系统 的 实验 ， 取 得 了 基本 数 
据 。20 世 纪 70 年 代 末 、80 年 代 初 ， 采 用 模式 匹配 的 方法 ， 事 先 存 入 发 话 
人 的 语音 做 成 标准 模式 ， 计 算 机 可 识别 该 特定 说 话 者 的 几 十 条 口令 ， 内 
容 包括 数字 、 算 术 四 则 运算 符号 及 一 些 操作 指令 。1980 年 ， 清 华 大 学 计 
算 机 系 采用 模式 匹配 法 研制 成 我 国 30 个 大 城市 地 名 识别 系统 ， 口 呼 地 名 
和 输入， 计算机 屏幕 就 可 以 显示 汉字 。 他 们 还 通过 口语 来 查询 清华 大 学 校 
内 的 电话 号 码 ， 并 在 此 基础 上 于 1984 年 建成 “8000 台 电话 声控 查 号 系 
统 ”， 并 且 投 入 了 实用 。 用 户 碍 询 电话 时 ， 需 由 话务员 复述 单位 名 称 ， 
并 由 话务员 通过 上 自己 的 语音 把 单位 名 称 报 给 计算 机 ， 计 算 机 屏幕 上 惑 显 
示 出 该 单位 的 电话 号 码 ， 并 可 通过 语音 合成 朔 置 将 号 码 目 动 地 报 给 用 














户 。1986 年 ， 清 华 大 学 计算 机 系 在 长 城 0520C-H 国 产 微型 机 的 汉字 编码 
输入 的 基础 上 ， 增 加 了 汉字 语音 输入 方式 ， 他 们 研制 的 汉字 语音 输入 系 
统 具 有 约 1000 汉 字 的 字 表 ， 在 这 个 字 表 内 的 字 以 及 由 这 些 字 组 成 的 词 ， 
都 可 以 通过 语音 输入 到 计算 机 中 去 ， 操 作者 无 须 经 过 专门 训练 ， 只 要 预 
先 念 一 遍 字 词 ， 让 计算 机 熟悉 其 口音 就 行 了 ， 语 音 识 别 的 正确 率 为 
90%， 字 表 的 内 容 还 可 以 根据 使 用 领域 任意 确定 。 中 国 科 学 院 声 学 研究 
所 还 研制 出 “汉语 孤立 字 全 音节 实时 识别 系统 ”， 该 系统 可 识别 1300 个 汉 
语 全 音节 ， 分 为 四 声 识别 、 辅 音 粗 识别 和 音节 细 识 别 三 个 层次 。 四 声 识 
别 的 正确 率 达 到 99.4%。 辅 音 粗 识别 主要 用 来 提取 辅 首 强 频 区 的 分 布 、 
清 辅音 的 长 度 、 声 母 与 韵母 的 时 长 比 等 辅音 的 音 征 ， 根 据 音 征 从 全 部 辅 
音 中 选 出 候选 声母 ， 起 到 粗 分 类 的 作用 。 在 粗 分 类 之 后 进行 音节 识别 ， 
只 限定 识别 包含 上 述 6 个 候选 声母 的 那些 音节 。 这 样 做 既 可 以 节约 匹配 
时 间 ， 又 可 提高 识别 的 正确 率 。 该 系统 在 1988 年 西欧 高 技术 展览 会 
(TEC-88) 上 获得 国际 大 奖 ， 在 此 基础 上 ， 已 制 成 语音 打字 机 。 清 华 
大 学 研制 了 “大 词汇 量 汉 语 语音 识别 系统 ”， 该 系统 采用 分 段 矢 量 量化 和 
分 段 概 率 模型 ， 没 有 专门 分 割 声母 和 韵母 的 步骤 ， 但 在 建立 矢量 码 本 时 
以 及 在 识别 策略 上 ， 都 考虑 了 二 者 的 区 别 。 该 系统 采取 了 两 级 匹配 的 策 
略 ， 先 是 计算 音节 匹配 的 概率 ， 继 而 计算 词组 匹配 的 概率 ， 系 统 中 建 有 
单 音节 字 表 、 双 音节 至 四 音节 词 表 ， 可 以 直接 口 呼 词 ， 识 别 精度 高 ， 啊 
应 速度 快 。 中 国 科学 院 自 动 化 研究 所 研制 了 “汉语 大 词汇 量 语音 识别 与 
口 呼 文本 输入 系统 ”， 以 声韵 调 为 基 元 来 进行 语音 识别 ， 识 别 时 采用 了 
隐 马 尔 可 夫 模 型 (HMM) 及 人 工 神 经 网 络 CNN) 方法 。 




































































我 国 在 非特 定 说 话 者 语音 识别 方面 也 取得 了 进展 。 清 华 大 学 研制 成 
功 非 特定 说 话 者 中 词汇 量 语音 识别 系统 。 非 特定 说 话 者 的 语 首 识别 的 难 
度 很 高 ， 识 别 时 要 强调 众多 说 话 者 的 语音 共同 参数 ， 采 用 类 聚 和 模糊 处 
理 使 其 具有 一 般 性 ， 并 要 解决 语音 多 变性 和 语 流 速度 变异 问题 ， 采 用 更 





为 有 效 的 时 间 规 正 技 术 。 采 用 这 样 的 语音 识别 系统 ， 使 用 者 不 必 经 过 训 
练 ， 在 400 多 个 词汇 的 范围 内 ， 有 很 高 的 识别 率 。 另 外 ， 清 华 大 学 还 研 
制 成 基于 神经 网 络 方法 的 非特 定 说 话 者 小 词汇 量 语音 识别 系统 ， 以 30 个 
军事 用 语 作 试验 ， 使 用 者 不 必 经 过 训练 ， 识 别 正 确 率 接近 100%。 北 京 
四 达 技 术 开 发 中 心 和 哈尔滨 工业 大 学 合作 ， 研 制 了 汉语 语音 识别 系 
统 “ 四 达 -863A”。 该 系统 以 单 音节 作为 语音 识别 的 基本 单元 ， 选 择 398 个 
无 声调 单 音 节 作 为 语音 识别 的 基本 内 容 ， 这 398 个 单 音 节 包 含 了 国家 标 
准 一 、 二 级 汉字 库 中 所 有 汉字 的 语音 。 用 户 在 初次 使 用 该 系统 时 需要 作 
短暂 的 训练 。 该 系统 还 把 语音 识别 技术 与 拼音 汉字 简单 转换 技术 结合 起 
来 ， 使 用 者 只 需 朗 读 所 要 输入 的 汉字 ， 属 于 同一 音节 的 知 干 个 汉字 由 拼 
音 -汉字 转换 程序 来 确定 是 哪 一 个 汉字 。“ 四 达 -863A” 系 统 的 一 次 识别 正 
确 率 超过 93%， 系 统 的 响应 时 间 小 于 0.1 秒 ， 四 个 声调 的 识别 正确 率 为 
99%， 每 分 钟 可 口 呼 输入 80 个 汉字 。 
































在 连续 单词 识别 方面 ，1984 年 ， 清 华 大 学 研制 成 功 “ 连 续 数字 语音 
识别 系统 ”， 先 在 计算 机 中 存 入 0 到 9 十 个 数字 的 语音 模式 ， 可 识别 连续 
数字 ， 三 位 数字 的 识别 正确 率 为 90%。1985 年 ， 哈 尔 滨 工业 大 学 研制 
成 “ 口 呼 连续 数字 串 识别 系统 ”"， 采 用 “ 先 分 段 ， 后 匹配 ”的 方法 ， 通 过 预 
分 段 得 出 数字 之 间 的 所 有 可 能 的 段 点 ， 然 后 用 动态 规划 匹配 法 确定 哪些 
段 点 是 数字 之 间 的 实际 连接 点 ， 这 种 方法 减少 了 计算 机 的 存 贮 空间 ， 识 
别 正确 率 为 89.3%。 











汉语 音节 是 声韵 调 的 统一 体 ， 深 入 研究 汉语 音节 的 声学 结构 将 有 助 
于 语音 识别 策略 的 确定 。 实 验 表 明 ， 汉 语音 节 中 韵母 段 的 时 长 与 能 量 比 
声母 段 的 时 长 与 能 量 大 得 多 ， 占 绝对 优势 ， 因 此 ， 声 母 的 识别 要 比 韵母 
的 识别 难度 大 。 从 音节 中 切 分 出 声母 时 ， 一 般 都 保留 着 后 继 交 母 的 影 

响 ， 对 带 有 不 同 后 继 荀 母 的 声母 ， 应 该 建立 不 同 的 样本 。 采 取 先 识 别 前 











母 ， 再 回 过 头 来 识别 声母 的 策略 ， 可 能 是 汉语 语音 识别 的 一 个 好 办 法 。 
声母 和 韵母 之 间 存 在 一 个 过 渡 段 ， 这 个 过 波段 虽然 只 有 5 一 30 坚 秒 的 短 
暂时 间 ， 但 却 含 有 很 重要 的 信息 ， 这 一 过 滤 段 对 于 声母 和 韵母 的 变异 和 
基 音 频率 的 变化 极为 敏感 ， 目 前 还 没有 找到 较 好 的 办 法 利用 好 这 个 过 小 
段 的 信息 。 汉 语 语音 识别 的 重点 应 当 放 在 单 音 节 的 识别 上 ， 因 为 单 音节 
征 构 词 和 造句 的 基础 。 从 单 音 节 结 合 为 多 音节 时 ， 各 个 单 音 节 之 间 要 连 
读 ， 每 个 音 市 都 会 受到 毗邻 音节 影响 ， 产 生 同 化 、 异 化 、 换 位 、 弱 化 、 
脱落 等 首 变 现象 。 在 语音 识别 中 ， 我 们 要 让 计算 机 具备 这 方面 的 知识 ， 
才能 有 效 地 处 理 识别 过 程 中 的 各 种 语 流 音 变 现象 。 




















与 其 他 语言 相 比 ， 汉 语 普通 话 中 的 音节 较 少 ， 考 虑 到 声调 时 有 1300 
个 ， 不 考虑 到 声调 时 只 有 400 多 个 ， 而 俄语 的 音节 多 达 2960 个 ， 英 语 的 
音节 多 达 4030 个 。 音 节 是 汉语 普通 话 中 最 自然 、 最 基本 的 语音 单位 ， 除 
极 少 数 的 例外 ， 汉 语 普通 话 的 一 个 音节 ， 写 下 来 就 是 一 个 汉字 ， 有 具有 一 
定 的 意义 ， 所 以 一 个 音节 就 是 形 音义 的 结合 体 。 发 音 时 ， 音 节 本 身 大 部 
分 时 间 为 比较 稳定 的 元 音 段 ， 而 汉语 的 元 音 对 可 懂 度 的 影响 要 比 英语 、 
俄语 等 语种 大 。 从 实验 结果 看 ， 元 音 的 识别 率 比 辅音 的 高 得 多 ， 而 汉语 
的 声调 又 有 区 别 意 义 的 作用 ， 可 提高 识别 率 。 因 此 ， 与 其 他 语种 的 语言 
比较 起 来 ， 汉 语 普 通话 的 语音 是 比较 易于 区 分 开 来 的 。 有 人 预言 ， 在 世 
界 上 主要 的 语言 中 ， 汉 语 语音 的 自动 识别 很 有 和 希望 获得 最 先 的 突破 。 人 
类 每 四 个 人 中 就 有 一 个 人 讲 汉语 ， 当 人 们 路 入 高 度 发 达 的 信息 化 时 代 的 
时 候 ， 直 接 用 汉语 同 计算 机 对 话 ， 必 将 使 计算 机 的 应 用 水 平 达 到 前 所 未 
有 的 高 度 。 















































语音 的 自动 识别 与 自动 合 都 成 是 很 有 实用 价值 的 研究 领域 。 为 了 提 
高 语音 识别 率 与 合成 语音 的 音质 ， 除 了 技术 上 的 问题 之 外 ， 必 须 深入 地 
进行 语言 学 的 研究 ， 不 仅 要 研究 语言 语音 的 规律 ， 还 要 研究 语法 和 语义 














的 规律 。 语 言 工作 者 应 该 关心 这 个 领域 的 研究 ， 做 出 应 有 的 贡献 。 事 实 
证 明 ， 在 语音 的 识别 与 合成 中 ， 目 党 地 利用 语言 学 的 研究 成 采 ， 将 会 显 
著 地 提高 研究 的 水 平 ， 因 此 ， 语 言 学 工作 者 在 语 首 的 识别 与 合成 系统 的 
研制 中 ， 是 会 大 有 作为 的 。 

















汉语 语音 的 上 自动 识别 与 合成 ， 目 前 是 以 普通 话 为 对 象 的 ， 不 论 是 研 
完 人 员 、 操 作 人 员 或 是 发 话 人 ， 都 要 学 好 普通 话 ， 才 有 可 能 进行 研究 。 
为 了 推广 汉语 语音 目 动 识别 与 合成 的 研究 成 果 ， 用 户 也 必须 会 说 普通 
话 ， 人 否则 是 很 难 进行 操作 和 使 用 的 。 生 活 在 信息 网 络 化 社会 的 中 国人 ， 
应 当 学 会 说 全 国 通行 的 普通 话 ， 才 能 适应 信息 网 络 化 社会 的 要 求 。 





A= DUÉHSHUNAS 


汉字 如 何 输入 计算 机 的 问题 ， 是 中 文 信息 处 理 的 关键 问题 ， 这 个 问 
题 不 解决 好 ， 中 文 信息 的 计算 机 处 理 就 成 为 无 米 之 炊 。 汉 字 输 入 计算 机 
的 方法 有 好 几 种 ， 目 前 讨论 最 多 的 是 汉字 编码 法 ， 采 用 编码 的 方法 来 输 
入 汉字 。 但 是 ， 不 论 多 么 好 的 汉字 编码 方案 ， 都 要 靠 操 作 人 员 击 键 输 
入 ， 工 作 量 相当 大 。 据 统计 ， 中 文 文献 的 数量 以 每 七 八 年 翻 一 番 的 速度 
增长 着 ， 每 年 在 中 文 期 刊 上 发 表 的 论文 约 12 万 篇 ， 如 果 我 们 用 计算 机 来 
管理 这 些 文献 ， 要 把 这 么 多 的 中 文 文献 输入 计算 机 ， 采 用 手工 击 键 的 方 
式 几 乎 是 不 可 能 的 。 然 而 ， 如 果 我 们 能 设法 让 计算 机 目 动 地 识别 汉字 ， 
只 要 计算 机 “看 ”着 中 文 文献 ， 丈 能 把 它们 准确 地 输入 到 计算 机 中 去 ， 那 
必然 会 大 大 地 提高 中 文 信 息 计 算 机 处 理 的 效率 ， 因 此 ， 汉 字 上 自动 识别 系 
统 的 研 完成 为 了 国内 外 目 然 语 言 处 理学 界 瞩 目的 一 个 问题 。 


























关于 印刷 体 英 文字 母 和 阿拉 伯 数 字 的 目 动 识别 研究 ， 早 在 20 世 纪 50 
年 代 就 在 美国 和 欧洲 开始 了 。1955 年 出 现 了 印刷 体 数字 的 光学 字符 目 动 
识别 朔 置 ， 接 着 出 现 了 印刷 体 贡 文字 母 的 目 动 识别 装置 ， 随 后 学 者 们 又 
转 问 手写 体 英 文字 母 和 手写 体 阿 拉 伯 数字 的 自动 识别 研究 。 











日 本 对 文字 上 自动 识别 方面 的 研究 起 步 较 晚 ， 但 发 展 很 快 。 手 写 体 英 
文字 母 、 手 写 体 阿拉 伯 数 字 、 手 写 体 日 文 假名 的 目 动 识别 ， 在 20 世 纪 70 
年 代 末 已 达到 实用 化 水 平 ，20 世 纪 80 年 代 初 已 有 商品 化 的 产品 出 现在 市 
场 上 。 











关于 汉字 自动 识别 的 研究 ，1966 年 美国 的 凯 西 CR. Casey) 和 纳 吉 
(G. Nagy) 曾 利用 计算 机 做 过 自动 识别 1 000 个 印刷 体 汉 字 的 初步 实 


验 ，1970 一 1972 年 斯 托 林 斯 CW. Stallings) 利用 计算 机 对 汉字 做 过 分 析 
和 描写 。 此 后 ， 日 本 的 中 野 康明 、 山 本 美 司 、 池 田 克 夫 等 学 者 也 积极 研 
究 汉字 的 自动 识别 问题 ，20 世 纪 70 年 代 初 期 开始 研究 印刷 体 汉 字 的 自动 
识别 ， 到 20 志 纪 70 年 代 末 期 达到 实用 水 平 ，20 世 纪 70 年 代 后 期 开始 研究 
手写 体 汉字 自动 识别 ， 目 前 已 经 实用 化 和 商品 化 。 





我 国 哈尔滨 工业 大 学 、 上 海 交 通 大 学 、 清 华 大 学 、 北 京 信 息 工 程 学 
院 等 单位 都 开展 了 汉字 目 动 识别 研究 ， 取 得 了 一 定 的 成 果 。 








在 进行 汉字 上 自动 识别 时 ， 首 先 要 把 汉字 写成 的 中 文 文献 用 光学 的 方 
法 进行 检测 ， 通 过 光学 字符 识别 器 (Optical Character Recognizer， 人 简称 
OCR) ， 将 纸 面 上 的 汉字 信息 转换 成 离散 的 电信 号 ， 然 后 送 入 计算 机 进 
行 判 别 。 


常见 的 光电 转换 方式 主要 有 四 种 : 


D Kod X: 采用 飞 扣 灾 光 管 作为 光源 ， 在 纸 面 上 对 欲 识 
别 的 汉字 按 顺 序 进行 扫描 ， 再 用 光电 倍增 管 接 收 汉字 影像 ， 获 得 航 识 别 
对 象 的 信号 。 扫 描 光 电 由 侦 转 电路 控制 。 





(2) 光电 摄像 管 方式 : 将 光 导 电 物 质 蒸发 在 透明 的 导电 膜 上 作为 
靶子 ， 光 源 照射 在 写 有 汉字 的 纸 面 上 ， 通 过 透镜 成 像 后 ， 由 电荷 积累 成 
图 像 。 当 电子 束 扫描 到 靶子 上 时 ， 就 会 有 图 像 电 流 输 出 。 


(3) 光敏 矩阵 方式 : 用 半导体 光敏 元 件 排 列 成 二 维 的 矩阵 平板 ， 
光源 照射 在 写 有 汉字 的 纸 面 上 形成 反射 光 ， 再 用 透镜 加 以 放大 ， 投 影 到 
光敏 元 件 的 二 维 窍 阵 板 上 ， 即 可 得 到 输出 的 电信 和 号 。 





(4) 激光 扫描 方式 : 油光 的 能 量 非 常 集中 ， 方 同性 强 ， 分 辨 度 


高 ， 使 用 寿命 长 ， 用 激光 扫描 写 有 汉字 的 纸 面 ， 即 可 输出 电信 和 号。 





写 在 纸 面 上 的 汉字 通过 光电 装置 转换 成 电信 号 之 后 ， 便 可 用 计算 机 
对 其 进行 识别 。 


目前 ，OCR 的 输入 速度 是 每 秒 2 000—3 000 字 符 ， 相 当 于 人 眼 读书 
速度 的 一 百倍 。 古 人 有 “五 更 三 点 待 漏 ， 一 目 十 行 读书 ”, “读书 敏 速 ， 
F 行 俱 下 ?等 说 法 ， 形 容 读 书 之 快 ， 但 是 比 起 OCR 来 ， 那 就 相形 见 绸 
了 。 汉 字 自 动 识别 系统 可 以 高 效率 地 输入 中 文 资 料 ， 其 研究 前 景 十 分 诱 
人 。 





汉字 目 动 识别 系统 首先 要 在 计算 机 内 建立 标准 汉字 样本 ， 然 后 选用 
适当 的 汉字 识别 准则 ， 将 输入 的 每 识别 汉字 与 样本 中 的 标准 汉字 逐一 对 
比 ， 最 后 根据 汉字 识别 准则 来 判断 输入 的 是 何 字 。 因 此 ， 汉 字 识 别 准则 
是 判明 未 知 汉字 归属 的 依据 。 目 前 所 用 的 有 相似 度 准 则 和 距离 准则 两 
种 。 








C12 相似 度 准则 : 


未 知 汉字 图 形 与 标准 汉字 图 形 之 间 相 似 程度 的 大 小 ， 叫 做 相似 度 。 
汉字 字符 图 形 在 图 像 空间 中 的 相似 度 由 输入 字符 图 形 癌 量 与 标准 汉字 图 
形 向 量 之 间 夹 角 的 余弦 来 表示 。 识 别 时 ， 如 果 相 似 度 为 1， 则 说 明 两 个 
问 量 重合 ， 因 此 ， 取 相似 度 为 1 的 情况 作为 识别 结 采 。 








但 是 ， 在 实际 使 用 中 ， 汉 字 图 形 会 因为 混 有 各 种 干扰 斑点 而 造成 变 
形 ， 这 种 变形 可 比喻 为 “噪声 ”(noise) 。 由 于 噪声 的 存在 ， 要 使 未 知 汉 
字 与 标准 汉字 的 图 形 完全 一 致 是 非常 困难 的 ， 也 就 是 说 ， 相 似 度 一 般 并 
不 等 于 1。 为 此 ， 在 汉字 自动 识别 系统 中 ， 还 采用 复合 相似 度 与 混合 相 
似 度 作为 识别 准则 。 对 混 有 噪声 的 未 知 汉字 图 形 的 形状 及 位 置 的 要 求 略 








微 放 宽 ， 使 计算 机 的 汉字 目 动 识别 系统 和 更 能 适应 外 界 各 种 干扰 。 


(2) 距离 准则 : 








未 知 汉 字 图 形 的 特征 向 量 与 标准 汉字 图 形 的 特征 癌 量 相 应 坐标 差 的 
绝对 值 的 总 和 ， 叫 做 “距离 ?>。 根 据 距 离 准 则 ， 可 以 比较 未 知 汉字 与 各 个 
标准 汉字 之 间距 离 的 大 小 ， 从 而 确定 与 未 知 汉字 的 距离 最 小 的 标准 汉字 
的 集合 。 











目前 比较 成 熟 的 汉字 识别 方法 有 两 种 : 一 种 叫 图 形 配 比 法 ， 又 
叫 “ 统 计 判 决 法 ?或 “相关 匹配 法 ”， 必 一 种 叫 结构 分 析 法 ， 又 叫 “ 特 征 关 
TRIES. 


(1) 图 形 配 比 法 : 


所 谓 图 形 配 比 法 ， 就 是 将 输入 的 未 知 汉字 图 形 与 计算 机 内 存 好 的 标 
准 汉 字 图 形 直 接 进 行 配 比 ， 求 其 相似 度 ， 把 与 未 知 汉字 相似 度 最 大 的 标 
准 汉 字 判 定 为 该 未 知 汉字 的 字 种 。 





图 形 配 比 法 比较 简单 、 直 观 ， 标 准 汉 字样 本 也 比较 容易 建立 ， 但 这 
种 方法 不 便于 区 别 不 同 字体 的 汉字 ， 更 不 适 于 区 分 形形色色 、 千 变 万 化 
的 手写 体 汉 字 ， 因 此 ， 这 种 方法 主要 用 于 标准 印刷 体 汉字 的 目 动 识别 。 





(2) 结构 分 析 法 : 





所 谓 结构 分 析 法 ， 就 是 不 仅 要 辨认 汉字 图 形 的 茶 些 特征 是 个 存在 ， 
而 且 ， 还 要 分 析 这 些 特征 之 间 的 关系 ， 分 析 汉 字 图 形 的 结构 。 使 用 结构 
分 析 法 时 ， 首 先 要 提取 汉字 的 特征 量 ， 然 后 ， 根 据 未 知 汉字 的 特征 量 与 
标准 汉字 的 相应 量 来 决定 汉字 的 所 属 。 





表示 汉字 结构 的 量 包 括 特征 点 和 笔 道 方向 特征 等 。 


ORME: 





表示 汉字 结构 的 特征 点 有 端点 、 二 分 支点 、 三 分 支点 、 四 分 支点 


iB 





FUB REAM CHER patum pa. OOS Pie Ei. IE A o 





有 两 条 线 和 它 连 接 的 点 叫 二 分 支点 ， 如 "“ 口 ? 字 四 个 角 上 的 届 折 点 各 
有 两 条 线 与 之 相连 ， 它 们 都 是 二 分 支点 。 





A= REA CAE BE RAY SSC, BUST PAI, AS 
RILLER CAINE ARB) ， 是 三 分 支点 。 





有 四 条 线 和 它 相连 接 的 点 叫 四 分 文 点 ， 如 “十 ? 字 中 心 的 交叉 点 ， 有 
四 条 线 与 之 相连 接 《〈 点 的 上 下 左右 各 为 一 条 线 ) ， 是 四 分 支点 。 








根据 汉字 中 各 个 特征 点 的 分 布 情况 ， 惑 可 以 表示 出 汉字 结构 的 茶 些 
特征 。 


DEEA HRE: 


汉字 的 笔 道 几 乎 都 是 由 直线 段 组 成 的 ， 这 些 直 线段 的 分 布 符 
合 “ 米 ?字形 八 个 方 癌 的 分 布 规律 。" 米 ? 字 有 六 国 ， 这 六 画 在 平面 上 分 布 
于 比较 整齐 的 八 个 方 回 : WAAAH, AWATA, ANANI, A 
斜 两 个 方向 。 这 八 个 方向 可 用 横向 、 纵 向 、 左 斜 癌 、 右 斜 向 四 个 投影 轴 
来 表示 。 同 时 ,“ 米 ” 字 还 包括 了 横 、 竖 、 点 、 撒 、 探 这 五 种 最 基本 的 汉 
字 笔 男 。 因 此 ， 在 以 结构 分 析 法 为 基础 的 汉字 上 自动 识别 研究 中 ， 可 以 根 
据 “ 米 ”字形 规律 来 确定 汉字 的 笔 道 方向 特征 和 笔 形 特征 。 











汉字 上 自动 识别 可 以 分 为 印刷 体 汉 字 识 别 和 手写 体 汉 字 识 别 两 种 。 
C1) 印刷 体 汉字 识别 : 


识别 印刷 体 汉 字 时 ， 首 先 使 用 光学 的 方法 ， 通 过 光电 转换 设备 将 纸 
面 上 的 汉字 转换 成 电信 号 。 由 于 汉字 数目 庞大 ， 在 识别 过 程 中 ， 硅 把 待 
识别 的 汉字 逐一 与 标准 汉字 样本 中 的 字 进 行 匹配 ， 需 要 花费 大 量 的 时 
间 ， 识 别 速度 会 很 慢 。 随 着 每 识别 汉字 数量 的 增加 ， 识 别 速度 还 会 明显 
降低 。 








为 了 提高 识别 速度 ， 一 般 都 采取 分 层次 识别 的 方法 ， 用 汉字 的 茶 些 
局 部 来 代 蔡 某 一 层次 的 整体 ， 尺 量 地 容忍 畸变 和 干扰 ， 以 逐 层 缩小 识别 
范围 。 








这 样 一 来 ， 印 刷 体 汉字 的 自动 识别 就 可 以 分 为 确定 候选 字 集 、 模 式 
匹配 、 特 殊 判定 三 个 层次 。 这 三 个 层次 实际 上 就 代表 了 印刷 体 汉 字 识 别 


的 三 个 步 又 。 





步骤 1 一 一 确定 候选 字 集 : 





把 汉字 分 为 看 干 个 大 的 类 别 ， 首 移 判断 输入 的 未 知 汉 字 属 于 哪 一 
类 ， 并 把 这 一 类 作为 候选 字 集 。 再 将 未 知 汉字 与 候选 字 集 里 的 标准 汉字 
逐一 进行 匹配 。 这 样 可 以 有 效 地 减少 匹配 的 对 象 ， 提 高 识别 的 速度 。 





确定 候选 字 集 的 方法 主要 有 以 下 几 种 : 


CO ffi 25-0] S 





哈尔滨 工业 大 学 电气 工程 系 对 5 791 个 汉字 进行 偏旁 切 制 ， 得 到 如 
下 的 结果 CXX18.DD : 





表 18.1 FSF UI] 


类 别 





Ze f 25 2H 
Ef 5241 
Sh 22H 


Fina 
4148 25 2H 
Jc E 


总 计 














这 样 ， 便 把 5 791 个 汉字 按 偶 劳 分 为 293 类 。 在 汉字 识别 时 ， 要 识别 
的 汉字 首先 按 偏 旁 的 位 置 进入 这 293 类 的 某 一 类 之 中 ， 由 于 每 类 的 平均 
字数 不 过 20 个 ， 因 此 ， 这 20 个 左右 的 汉字 便 被 确定 为 候选 字 集 ， 从 而 大 
大 地 缩小 了 识别 范围 。 实 际 上 ， 汉 字 偶 旁 并 不 是 平均 分 布 的 ， 例 如 ， 磊 
偶 劳 组 中 单 人 和 劳 这 一 类 就 有 164 字 。 但 不 管 怎 么 说 ， 确 定 了 候选 字 集 使 
得 汉字 匹配 的 范围 大 为 缩小 ， 为 进一步 识别 提供 了 方便 。 























凶 复 杂 度 索引 法 











复杂 上 度 是 指 汉 字 的 线段 密度 ， 分 为 水 平复 杂 度 和 垂直 复杂 度 两 种 。 
水 平复 杂 度 是 汉字 在 水 平方 向 上 的 笔画 长 度 之 和 与 它 在 水 平方 向 上 的 轴 
投影 长 度 的 比值 ， 记 为 Cx; 垂直 复杂 上 度 是 汉字 在 垂直 方向 上 的 笔 男 长度 
之 和 与 它 在 垂直 方向 上 的 轴 投 影 长 度 的 比值 ， 记 为 Cy。 显 而 易 见 ， 以 横 
笔画 为 主 的 字 Cx 值 较 高 ， 如 “ 量 交 县 ?等 ， 以 紧 笔 国 为 主 的 字 Cy 值 较 遍 ， 
如 “ 删 交 酬 ?等 ， 斜 笔 多 的 字 ，Cx 与 Cy 的 值 往往 比较 接近 ， 
如 “ 众 ”“ 粉 ?等 。 一 般 地 说 ， 笔 画 少 的 字 ，Cx 与 Cy 的 值 都 比较 低 ， 笔 画 多 
的 字 ，Cx 与 Cy 的 值 都 比较 高 。 














如 果 以 Cx 作 为 横 坐 标 ， 以 Cy 作 为 纵 坐 标 ， 束 可 以 把 每 个 汉字 对 应 
于 平面 坐标 系 上 的 一 个 点 ， 从 而 获得 一 张 汉 字 复 杂 度 分 布 图 。 这 张 分 布 
图 就 是 汉字 的 复杂 度 索 引 。 当 输入 一 个 汉字 时 ， 先 计算 汉字 在 汉字 复杂 
Rea AR AEX VAN Bio, Dax SA te, “SRL, SEY ZETA) 
内 的 几 十 个 汉字 作为 候选 字 集 。 














(SIP HEB WIZ: 


在 每 个 汉字 的 上 下 左右 ， 用 固定 尺寸 的 长 方形 加 以 切割 ， 根 据 落 入 
每 个 方 框 中 点 子 数目 的 多 少 ， 用 数字 0，1，2 加 以 编码 : 落 入 方 框 中 点 
子 少 的 为 0， 落 入 方 框 中 点 子 多 的 为 2， 不 多 不 少 的 为 1。 然 后 ， 按 “上 左 
下 右 ” 的 逆 时 针 方向 将 数字 排列 ， 构 成 一 个 汉字 的 外 框 编码 。 例 如 ， 图 
18.3 的 “ 昨 ”* 字 ， 上 框 中 点 子 少 ， 代 码 为 0， 左 框 中 点 子 多 ， 代 码 为 2， 下 
框 中 点 子 少 ， 代 码 为 0， 右 框 中 点 子 不 多 不 少 ， 代 码 为 1， 得 到 “ 昨 ” 字 的 
外 框 编码 为 0201。 


LJ 
Ha 
H 


LJ] 
LI 


= 
* 
CE] 
LA. 
"1 
LA 
Fet 
"IX 
LJ 
"T 








图 18.3 ”外 框 编码 


























将 汉字 按 外 框 编码 的 异同 进行 分 类 ， 把 同一 外 框 编码 的 汉字 归 为 一 
类 ， 便 可 确定 汉字 的 候选 字 集 。 例 如 ， 外 框 编码 为 0021 的 汉字 有 “ 仕 ， 
AE, 佐 ， 借 ， Ho KL, m ome 它们 便 构成 一 个 候选 字 集 。 





外 模糊 点 阵 法 








如 果 汉 字 的 原始 模式 为 32x32 点 阵 ， 通 过 对 每 个 2x2 的 小 点 阵 重 新 编 
码 ， 可 获得 16x16 的 一 个 模糊 点 阵 ， 对 于 这 个 新 的 模糊 点 阵 中 的 每 个 2x2 
点 阵 再 重新 编码 ， 则 可 获得 8x8 的 一 个 更 加 模糊 的 点 阵 ， 继 续 模 糊 ， 可 
得 到 4x4 的 模糊 点 阵 。 对 于 原始 点 阵 而 言 ， 它 一 定 是 可 以 区 别 汉字 的 ， 
但 是 ， 每 次 模糊 都 可 能 使 各 干 个 汉字 共有 一 个 模糊 点 阵 。 如 采 每 个 模糊 

















点 阵 都 代表 一 组 汉字 ， 则 这 组 汉字 就 构成 一 个 候选 字 集 。 这 个 候选 字 集 
当中 的 每 一 个 汉字 ， 输 入 是 都 有 相同 的 模糊 点 阵 。 





上 述 各 种 确定 候选 字 集 的 办 法 ， 可 以 根据 识别 汉字 时 的 不 同 需要 加 
以 选用 ， 也 可 以 结合 起 来 使 用 。 


步骤 2 一 一 模式 匹配 : 


确定 候选 字 集 后 ， 在 一 个 候选 字 集 中 ， 一 般 都 会 有 十 几 个 甚至 几 十 
个 汉字 ， 第 二 层次 的 工作 ， 就 是 把 竺 识别 的 汉字 同 候选 字 集 中 的 汉字 进 
行 模 式 匹 配 ， 计 算 二 者 的 相似 度 ， 从 中 选 出 相似 度 最 大 者 。 


模式 匹配 还 可 以 在 一 个 汉字 的 局 部 范围 内 进行 。 例 如 ， 可 以 在 汉字 
的 四 个 角 上 切割 出 四 个 小 块 ， 分 别 进行 匹配 。 当 然 ， 为 了 保证 局 部 匹配 
的 合理 性 ， 这 种 切割 必须 遵循 一 定 的 规范 来 进行 。 


步骤 3 一 一 特殊 判定 : 


在 四 个 角 都 完全 匹配 时 ， 并 不 能 保证 整个 汉字 一 定 匹配 。 例 
如 ,“ 候 半 修 ?二 字 ， 四 个 角 完 全 匹配 ， 但 整个 汉字 并 不 匹配 。 再 
如 “ 伐 ”“ 代 ”，“ 体 ”*% 休 ”都 是 如 此 。 这 时 ， 就 必须 对 汉字 中 的 某 些 特殊 部 
位 进行 判定 ， 或 者 计算 特殊 部 件 的 笔画 密度 ， 或 者 采用 其 他 方法 。 这 
样 ， 才 能 对 输入 的 汉字 作出 最 后 识别 。 








(20 手写 体 汉字 识别 


手写 体 汉 字 的 识别 一 般 不 采用 图 形 匹 配 法 ， 而 采用 结构 分 析 法 ， 因 
为 手写 体 汉 字 不 如 印刷 体 汉 字 工 整 ， 识 别 时 除了 要 判别 其 是 否 存在 某 种 
特征 之 外 ， 更 重要 的 是 判断 、 分 析 这 些 特 征 之 间 存 在 什么 样 的 关系 ， 这 
样 才能 取得 较 好 的 识别 效果 。 





手写 体 汉 字 识 别 又 可 以 分 为 联机 手写 体 汉 字 识 别 和 脱 机 手写 体 汉 字 
识别 两 大 类 。 


在 与 计算 机 相 联 的 书写 板 上 写 出 汉字 ， 边 写 边 由 计算 机 来 识别 ， 叫 
做 联机 手写 体 汉 字 识 别 。 书 写 板 的 有 效 部 分 形成 一 个 NxN 的 点 阵 ， 以 右 
下 角 作 为 该 点 阵 所 构成 的 直角 坐标 系 为 原点 ， 则 点 阵 中 的 每 一 个 点 ， 都 
与 直角 坐标 系 中 的 一 个 坐标 位 置 相对 应 。 当 用 笔 在 书写 板 上 书写 时 ， 随 
者 笔 的 移动 ， 计 算 机 的 硬件 部 分 不 断 输出 数据 ， 当 一 个 有 n 个 笔画 的 汉 
字 写 完 时 ， 人 硬件 也 区 输出 了 n 组 数据 ， 描 述 出 每 个 笔画 的 轨迹 。 


哈尔滨 工业 大 学 电气 工程 系 提出 了 一 种 “有 限制 手写 体 汉字 联机 识 
别 法 ?”， 对 手写 体 汉 字 作 了 东 些 限制 〈 如 笔画 的 种 类 、 长 短 、 宽 罕 都 有 
严格 规定 ) ， 当 按照 这 些 限 制 书写 汉字 时 ， 计 算 机 就 能 逐 笔 地 将 每 一 个 
笔画 的 起 始点 和 结束 点 的 坐标 输入 机 内 ， 形 成 一 组 数据 。 每 接受 一 组 数 
据 ， 计 算 机 就 马上 迅速 地 作 笔 男 识别 ， 进 行 笔 国 记 数 、 仍 劳 分 机 ， 然 后 
将 偏 劳 进行 匹配 ， 束 可 以 得 到 最 终 的 识别 结果 。 





不 用 特殊 的 书写 板 ， 对 脱离 计算 机 书写 的 汉字 进行 计算 机 识别 ， 叫 
做 脱 机 手写 体 汉 字 识 列 。 


上 海 交 通 大 学 的 学 者 指出 ， 为 了 实现 脱 机 手写 体 汉字 识别 ， 通 常 需 
要 完成 两 项 工作 : 


(抽取 图 形 的 特征 值 。 这 些 特征 值 既 要 能 完备 地 描述 整个 汉字 图 
形 ， 而 特征 值 的 个 数 又 要 尽 可 能 地 少 ， 这 就 需要 对 汉字 从 总 体 上 进行 细 
致 的 分 析 。 








包 建 立 样板 字典 库 。 要 求 以 尽 可 能 少 的 样板 ， 对 尽 可 能 多 的 多 许晴 


变 的 汉字 字体 图 形 进行 识别 ， 这 束 需 要 在 允许 限度 下 ， 对 样板 进行 模糊 
处 理 ， 以 便 大 量 节省 存储 样板 的 空间 。 


另外 ， 对 于 汉字 笔画 按 “ 米 "字形 规律 分 布 的 八 个 方向 上 的 定位 ， 也 
要 进行 模糊 处 理 。 因 为 手写 体 汉字 在 手写 时 允许 畸变 ， 其 笔画 不 可 能 丝 
毫 不 差 地 分 布 在 “ 米 "字形 的 八 个 方向 上 。 他 们 规定 ， 允 许 在 每 个 方向 上 
有 +22.5 的 偏 畸 ， 也 就 是 把 相对 于 每 个 方向 +22.5* 的 笔画 都 归结 于 这 个 
方向 。 这样 ， 就 不 必 对 略 有 方向 畸变 的 汉字 另 立 样板 ， 从 而 减少 了 字典 
库 里 样板 的 数目 。 











汉字 识别 是 一 个 浩 楷 的 研究 谍 题 。 由 于 汉字 字体 索 多 、 字 形 复杂 ， 
需要 处 理 和 存储 的 信息 量 比 拉 丁字 母 大 几 百 倍 。 为 了 促进 汉字 识别 研究 
的 进展 ， 必 须 加 强 汉 字 的 整理 和 规范 化 工作 ， 确 定 汉 字 的 书写 笔顺 、 笔 
形 次 序 、 结 构 方 式 的 规范 ， 这 样 ， 汉 字 识 别 的 研究 就 会 更 快 、 更 好 地 友 
展 。 语 言 文字 工作 者 在 这 个 领域 是 大 有 可 为 的 。 


























我 国 目 20 世 纪 70 年 代 开 始 汉字 目 动 识别 的 研究 ， 从 1986 年 至 今 取得 
了 很 大 的 成 绩 。 








联机 手写 体 汉 字 识 别 已 经 商品 化 ， 有 些 产品 的 性 能 达到 国际 水 平 ， 
识别 的 汉字 字数 为 6 763—12 000 人 个， 识别 正确 率 初次 使 用 为 80% 左 右 ， 
经 常 使 用 可 达 95% 以 上 ， 识 别 速度 基本 上 能 跟 上 人 的 书写 速度 。 





印刷 体 汉 字 识 别 也 实用 化 了 。 有 十 多 个 单位 推出 了 实用 化 系统 ， 可 
识别 国家 标准 的 1 级 和 2 级 简体 汉字 3 755 到 6 763 个 ， 繁 体 汉字 5 401 个 ; 
可 识别 的 汉字 字体 ， 简 体 有 宋 、 仿 宋 、 报 宋 、 黑 、 楷 以 及 多 体 混 排 ， 繁 
体 有 了 明 、 楷 、 仿 、 黑 等 ， 也 可 以 识别 多 体 英 文 混 排 。 这 些 系 统 还 配备 了 
方便 的 用 户 界面 ， 能 够 进行 版 面 分 析 、 文 本 识别 、 识 别 结果 的 后 处 理 、 


目 动 纠 错 、 编 辑 、 输 出 等 。 


脱 机 手写 印刷 体 汉字 和 无 书写 限制 的 脱 机 手写 体 汉 宇 的 识别 近 几 年 
也 进行 了 许多 研究 ， 建 成 了 一 些 试验 系统 ， 现 已 有 近 于 实用 的 交互 式 目 
学 脱 机 手写 体 汉 字 识 别 系统 ， 可 识别 国标 一 级 汉字 3 755, ESA 
特征 库 可 识别 不 加 任何 书写 限制 的 汉字 。 


由 于 我 国 的 汉字 识别 系统 几乎 都 是 在 汉字 操作 系统 下 工作 的 ， 识 别 
结果 为 汉字 内 码 ， 因 而 可 以 把 识别 出 的 汉字 直接 在 计算 机 上 显示 或 打印 
出 来 。 


汉字 识别 如 果 不 是 仅仅 局 限于 一 个 字 一 个 字 地 孤立 地 进行 模式 匹 
配 ， 而 且 还 利用 词 以 及 上 下 文 关 系 的 信息 ， 将 会 显著 地 提高 识别 的 正确 
率 。 例 如 ， 在 汉字 识别 系统 中 ， 利 用 汉字 单词 和 词组 的 信息 来 进行 自动 
纠 错 ， 利 用 语言 知识 修改 部 分 误 识 字 ， 利 用 词 的 联想 来 修改 误 识 字 和 拒 
识字 ， 都 获得 了 很 好 的 识别 效果 。 











因此 ， 把 上 自然 语言 计算 机 处 理 的 技术 应 用 到 汉字 的 自动 识别 中 ， 将 
会 使 汉字 目 动 识别 系统 如 席 添 恤 。 
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[D] 本 文中 我 们 采用 汉语 拼音 来 给 汉字 标 音 ， 不 同 的 声调 用 数字 标 
出 。 


结束 语 


目 然 语 言 的 计算 机 处 理 是 一 门 边缘 性 学 科 ， 它 与 应 用 语言 学 有 着 十 
分 密切 的 关系 。 在 这 里 ， 我 们 打算 从 应 用 语言 学 的 角度 ， 对 我 国 目 然 语 
言 计算 机 处 理 的 研究 提出 一 些 不 成 熟 的 意见 ， 作 为 本 书 的 结束 语 。 





目 然 语言 处 理 这 门 学 科 不 仅 对 于 语言 学 本 身 的 发 展 起 到 了 重要 作 
用 ， 对 于 国民 经 济 的 发 展 ， 也 有 着 潜在 的 巨大 价值 。 近 年 来 ， 我 国 的 目 
然 语言 处 理 有 了 很 大 的 进步 ， 取 得 了 令 人 瞩目 的 成 绩 ， 有 力 地 促进 了 我 
国 计 算 机 产业 的 民族 化 ， 促 进 了 计算 机 在 我 国人 民 当 代 语 言 文字 生活 中 
的 普及 和 推广 。 





但 是 ， 我 国 目 然 语言 处 理 的 发 展 水 平 ， 与 发 达 国 家 相 比 ， 还 有 着 相 
当 大 的 差距 ， 为 了 进一步 提高 我 国 目 然 语 言 处 理 的 研究 水 平 ， 我 们 应 该 
注意 我 国 自然 语言 处 理 研究 的 世界 化 问题 。 











我 国 日 然 语言 处 理 的 世界 化 包括 两 方面 的 内 容 : 一 方面 ， 我 们 应 该 
努力 学 习 国 外 的 先进 理论 和 方法 ， 纵 短 与 世界 的 差距 ， 男 一 方面 ， 我 们 
应 该 结合 汉语 汉字 的 特点 ， 创 造 出 独 具 中 国 特色 的 理论 和 方法 ， 为 世界 
目 然 语 言 处 理 的 发 展 做 出 贡献 。 

















首先 谈 第 一 个 方面 的 问题 。 我 国 的 自然 语言 处 理 研 究 过 去 没有 人 花 足 
够 的 力量 来 了 解 国外 目 然 语言 处 理 的 最 新 成 就 。 我 国 的 传统 语言 学 研究 
有 一 个 不 足 的 地 方 ， 就 是 许多 研究 人 员 没 有 阅读 外 国文 献 的 习惯 ， 他 们 
写 的 文章 ， 很 少 引 用 国外 的 研究 成 采 ， 他 们 的 研 完 完 全 是 闭门造车 ， 既 





























不 回国 内 的 同行 学 习 任 何 东 西 ， 也 不 向 外 国学 习 任何 东西 。 由 于 不 阅读 
国外 的 文献 ， 许 多 研究 常常 是 重复 在 国外 早已 做 过 的 工作 ， 往 往事 倍 而 
功 半 ， 以 至 我 国 的 语言 学 研究 同 国际 语言 学 的 潮流 严重 脱节 。 这 种 不 良 
的 习惯 也 带 到 了 目 然 语言 处 理 的 研究 中 来 ， 我 们 有 些 上 自然 语言 处 理 研究 
人 员 ， 也 不 重视 国外 目 然 语 言 处 理 的 新 理论 新 方法 。 近 年 来 ， 国 外 目 然 
语言 处 理 的 理论 和 实践 都 有 了 很 大 的 发 展 。 在 理论 方面 ， 马 丁 ' 山 依 提 

出 了 “功能 合 一 语法 ”， 卡 普兰 和 布 列 斯 南 提出 了 “词汇 功能 语法 ”， 盖 效 
达 提 出 了 “广义 短语 结构 语法 ”， 还 有 乔 姆 斯 基 的 “管辖 约束 理论 ”。 这 些 
理论 研究 ， 突 破 了 传统 的 框架 ， 更 加 重视 词汇 对 句法 的 作用 ， 更 加 重视 
语义 的 作用 ， 把 语言 的 形式 研究 逐渐 地 从 形态 和 人 句法 转 到 了 词汇 和 语义 
方面 ， 在 词汇 平面 上 ， 探 索 语 言 的 词汇 个 性 ， 在 语义 平面 上 ， 探 索 语 言 
的 语义 共性 ， 从 而 把 个 性 规则 的 研究 和 共性 规则 的 研究 在 新 的 基础 上 结 
合 起 来 ， 这 些 理论 不 仅 注 意 研究 印 欧 语言 ， 也 力图 研究 世界 的 各 种 语 

言 ， 有 些 目 然 语言 处 理 的 专家 ， 能 够 运用 多 种 语言 ， 因 而 这 些 理论 具有 
一 般 性 ， 既 适用 于 印 欧 语言 ， 也 适用 于 汉语 。 这 些 理论 与 传统 的 理论 还 
有 一 个 重要 的 区 别 : 传统 理论 一 般 只 讲 原 理 ， 而 这 些 理论 则 着 重 于 讲 方 
法 ， 带 有 强烈 的 方法 论 色 彩 ， 可 以 很 方便 地 在 计算 机 上 实现 ， 具 有 可 操 
作 性 。 方 法 第 第 是 一 般 性 的 ， 不 会 带 有 个 别 语言 特性 的 偏 癌 ， 因 而 这 些 
带 有 方法 论 色 彩 的 理论 ， 也 可 适用 于 汉语 。 那 种 认为 国外 的 自然 语言 处 
理 的 理论 只 适用 于 印 欧 语 言 而 不 适用 于 汉语 的 说 法 ， 是 不 符合 事实 的 。 
我 们 在 汉语 的 研究 中 国 然 有 必要 注意 汉语 不 同 于 其 他 语言 的 特点 ， 但 如 
果 过 分 强调 汉语 的 特殊 性 ， 而 不 重视 汉语 与 其 他 语言 所 共有 的 一 般 性 的 
语言 理论 和 方法 ， 就 会 走向 反面 ， 把 汉语 的 研究 与 世界 的 语言 学 研究 隔 
离 起 来 ， 阻 碍 汉语 研究 的 发 展 。 目 前 ， 国 外 学 者 对 于 词汇 功能 语法 、 广 
义 短语 结构 语法 、 管 辖 约束 理论 的 计算 复杂 性 ， 己 经 进行 了 严格 的 精密 
的 分 析 和 论证 ， 使 得 这 些 理论 更 加 紧密 地 与 计算 机 技术 结合 在 一 起 。 其 
中 ， 功 能 合 一 语法 理论 中 的 “ 合 一 ”的 概念 本 身 就 是 从 现代 数理 馆 辑 中 借 












































来 的 ， 该 理论 有 着 十 分 严格 的 运算 法 则 。 上 述 这 些 理论 与 计算 机 技术 有 
着 十 分 密切 的 关系 ， 不 仅 适 用 于 外 国 的 计算 机 ， 也 同样 适用 于 中 国 的 计 
算 机 ， 不 仅 适 用 于 外 国 的 语言 研究 ， 也 同样 地 适用 于 中 国 的 语言 研究 。 
目前 ， 我 国语 言 工 作者 ， 甚 至 不 少 专门 从 事 自然 语言 处 理 的 学 者 ， 对 于 
国外 这 些 有 价值 的 理论 还 很 不 熟悉 ， 又 缺乏 虚心 学 习 的 愿望 ， 这 样 下 

去 ， 将 会 贻误 我 国 的 语言 学 事业 ， 尤 其 是 自然 语言 处 理事 业 ， 对 此 我 们 
决 不 能 掉以轻心 ， 我 们 应 该 采取 “ 拿 来 主义 ”的 态度 ， 吸 取 这 些 理论 中 的 
精华 部 分 ， 从 而 推动 我 国 自然 语言 处 理 的 发 展 。 在 实践 方面 ， 国 外 已 经 
研制 成 功 不 少 的 实用 的 自然 语言 处 理 系统 ， 如 美国 的 SYSTRAN 机 器 翻 
译 系统 、 加 拿 大 的 TAUM-METEO 机 器 翻译 系统 、 日 本 的 ATLAS 系 统 、 
谷歌 公司 的 网 上 多 语言 翻译 系统 等 等 ， 我 们 应 该 借鉴 国外 的 实际 经 验 ， 

努力 促进 我 国 自然 语言 处 理 研 究 的 实用 化 和 商品 化 ， 使 自然 语言 处 理 的 
产品 早日 走 入 市 场 ， 使 之 产生 出 巨大 的 经 济 效 益 来 。 






































学 习 国 外 自然 语言 处 理 研究 成 果 的 目的 是 为 了 搞 好 中 国 自己 的 自然 
语言 处 理 研 究 ， 为 世界 的 自然 语言 处 理 做 出 页 献 ， 从 而 促进 中 国 自然 语 
言 处 理 研究 的 世界 化 ， 因 此 ， 我 们 在 学 习 国 外 上 自然 语言 处 理 的 理论 和 方 
法 的 同时 ， 还 应 该 立足 于 中 国 的 实际 ， 像 我 国明 代 杰 出 的 思想 家 王夫之 
所 说 的 那样 , “不 迷 其 所 同 ， 亦 不 失 其 所 以 异 ”， 结 合 汉语 汉字 的 特点 ， 
努力 建立 有 中 国 特色 的 、 适 合 于 汉语 的 自然 语言 处 理 的 计算 语言 学 。 























为 了 建立 有 中 国 特色 的 计算 语言 学 ， 我 们 应 当 采 取 如 下 措施 : 首 
先 ， 我 们 应 该 提倡 汉语 语言 学 工作 者 和 计算 机 工作 者 的 结合 。 








我 国有 一 大 批 有 成 就 的 汉语 语言 学 家 ， 他 们 以 广博 的 知识 和 非凡 的 
洞察 力 ， 对 汉语 进行 了 细致 而 深刻 的 分 析 ， 取 得 了 丰硕 的 研究 成 果 。 但 
是 ， 长 期 以 来 ， 由 于 学 科 之 间 的 隔绝 ， 汉 语 语言 学 家 的 研究 很 少 考虑 到 
目 然 语 言 处 理 的 需要 ， 有 些 语言 学 的 研究 成 果 ， 离 社会 生活 实践 很 远 ， 








这 些 成 果 ， 往 往 只 是 语言 学 家 渊博 知识 的 证 明 ， 而 不 具有 多 少 社会 实践 
意义 。 在 传统 的 汉语 语言 学 的 研究 中 ， 往 往 越 是 高 深 的 学 问 ， 其 社会 实 
践 意义 越 不 明显 。 在 这 种 情况 下 ， 面 对 当今 我 国 莲 动 发 展 的 市 场 经 济 ， 
有 人 发 出 了 “语言 学 无 用 论 ” 的 慨叹 。 


其 实 ， 语 言 是 信息 最 重要 的 载体 ， 蒸 蒸 日 上 、 瞬 电 万 变 的 社会 需要 
了 解 信 息 ， 而 自然 语言 处 理 的 目的 融 是 抽取 和 挖掘 潜藏 在 语言 中 的 信 
恩 ， 因 而 必然 会 同市 场 经 济 的 社会 发 生 干 丝 万 缕 的 联系 ， 这 样 ， 面 癌 计 
算 机 的 汉语 研究 就 会 与 中 国 社 会 主义 市 场 经 济 的 进步 轧 轧 相关 。 汉 语 语 
言 学 的 研究 必定 会 促进 中 国 上 自然 语言 处 理 的 研究 ， 汉 语 语言 学 家 在 上 自然 
语言 处 理 的 研究 中 是 大 有 可 为 的 。 汉 语 语言 学 界 的 同志 们 应 该 元 服 那 种 
无 所 作为 的 消极 情绪 ， 应 该 走出 “就 语言 为 语言 而 研究 语言 "的 象 直 卉 ， 
到 自然 语言 信息 处 理 的 实践 中 去 看 一 看 ， 这 样 束 会 了 解 到 汉语 语言 学 所 
具有 的 巨大 的 潜在 价值 ， 束 可 以 在 新 的 领域 中 继续 发 挥 他 们 的 聪明 才 
智 。 目 前 ， 目 然 语 言 处 理 的 研究 对 汉语 语言 学 提出 了 一 系列 的 新 问题 ， 
如 中 文 文本 的 自动 切 分 问题 、 中 文句 子 的 玫 义 结构 问题 、 中 文 语 料 库 和 
树 库 的 建立 问题 、 中 文句 法 语义 目 动 分 析 问 题 ， 等 等 。 加 速 这 些 问题 的 
研究 ， 促 成 这 些 问题 的 解决 ， 将 会 有 力 地 促进 中 国 上 自然 语言 处 理 研究 的 
发 展 ， 从 而 产生 出 巨大 的 经 济 效 益 和 深远 的 社会 影响 。 这 不 仅 对 于 汉语 
语言 学 ， 而 且 对 于 人 文科 学 和 目 然 科学 的 进一步 结合 ， 都 是 很 有 意义 
的 。 



































汉语 语言 学 家 应 该 到 自然 语言 处 理 的 研究 中 选取 自己 的 课题 ， 计 算 
机 工作 者 也 有 必要 把 他 们 在 自然 语言 处 理 研究 中 过 到 的 各 种 汉语 语言 学 
问题 ， 以 汉语 语言 学 家 可 以 理解 的 形式 ， 提 供给 他 们 。 汉 语 语言 学 家 和 
计算 机 专家 的 结合 ， 将 使 我 国 的 目 然 语 言 处 理 研究 如 虎 添 副 ， 得 到 更 大 
的 发 展 。 











我 国 的 大 多 数 语 言 学 家 长 期 从 事 人 文科 学 的 研究 ， 习 惯 于 “一 本 
书 、 一 张 纸 、 一 文笔 ”的 研究 模式 ， 他 们 勤 于 用 手工 的 方式 “笔耕 ”， 但 
对 于 计算 机 了 解 不 多 ， 刚 接触 计算 机 时 ， 常 有 神秘 豚 惧 之 感 ， 不 敢 大 胆 
地 “机 耕 ”。 





为 了 让 语言 学 家 直接 上 计算 机 工作 ， 软 件 工 作者 还 应 该 设计 对 语言 
学 家 友好 的 人 机 界面 ， 给 语言 学 家 提供 一 个 有 利于 发 挥 其 特长 的 目 然 语 
言 研究 环境 。 我 们 相信 ， 语 言 学 家 一 旦 在 这 样 友好 的 人 机 界面 之 下 工 
作 ， 他 们 对 计算 机 残 会 熟悉 起 来 ， 就 会 逐渐 改变 传统 的 手工 研究 方式 。 
这 样 ， 他 们 丰富 而 渊博 的 语言 学 知识 ， 就 有 可 能 最 大 限度 地 在 计算 机 工 
作 中 发 挥 出 来 。 在 这 样 的 过 程 中 ， 有 的 语言 学 家 还 有 可 能 成 为 计算 机 专 
家 ， 成 为 文理 兼 通 的 新 型 人 才 。 有 了 这 样 一 批 人 才 ， 我 国 的 目 然 语言 处 
理 研究 丈 更 有 和 希望 了 。 














目 然 语 言 处 理 是 建立 在 语言 学 、 数 学 和 计算 机 科学 三 门 学 科 基 础 上 
的 边缘 性 学 科 ， 处 于 文科 、 理 科 和 工科 的 交叉 点 上 。 应 当 提倡 这 三 个 学 
科 的 研究 人 员 在 上 自然 语言 处 理 的 研 客 领域 内 做 适当 的 分 工 ， 发 挥 各 目的 
专长 。 但 是 ， 像 目 然 语 言 处 理 这 样 复 杂 的 研究 读 题 ， 研 究 人 员 的 知识 如 
打 仅 仅 局 限于 一 个 学 科 之 内 ， 不 积极 地 汲取 其 他 两 门 学 科 的 知识 ， 束 不 
能 将 这 三 方面 的 知识 有 机 地 结合 起 来 ， 从 而 最 大 限度 地 发 挥 他 们 本 专业 
知识 的 作用 。 因 此 ， 我 们 要 促进 目 然 语 言 处 理 研究 人 员 的 知识 更 新 ， 改 
善 我 国 自然 语言 处 理 研 究 人 员 的 知识 结构 。 一 个 好 的 自然 语言 处 理 研究 
人 员 ， 对 于 目 己 的 本 专业 知识 固然 应 该 是 精 研 通达 的 内 行 ， 但 对 于 另外 
两 个 相关 学 科 的 知识 也 绝 不 能 是 似 懂 非 懂 的 外 行 。 对 于 自然 语 处 理 言 的 
研究 者 来 说 ， 传 统 的 “一 次 性 教育 ”已 是 一 个 陈旧 的 观念 。 教 育 不 再 仅仅 
古 进入 工作 岗位 前 的 准备 阶段 ， 我 们 要 不 断 地 进行 知识 的 更 新 ， 现 代 语 
言 学 、 现 代数 学 、 现 代 计 算 机 科学 以 及 由 这 些 学 科 相互 渗透 而 产生 的 数 



































理 语言 学 、 统 计 语 言 学 、 计 量 语言 学 、 语 料 库 语言 学 等 新 兴学 科 ， 都 是 
我 们 应 该 熟悉 的 知识 ， 每 一 个 决心 从 事 目 然 语言 处 理 的 研究 人 员 ， 都 要 
力争 使 自己 成 为 文理 兼 通 、 博 识 多 才 的 人 。 如 果 我 们 的 业务 素质 提高 
了 ， 束 有 可 能 将 精湛 的 现代 化 科学 知识 转化 为 生产 力 ， 计 算 机 化 的 语言 
知识 也 将 成 为 生产 力 的 一 个 组 成 部 分 ， 从 而 有 力 地 推动 中 华 民 族 的 振 
兴 。 日 本 布 拉 维 斯 国际 公司 的 日 英 机 器 翻译 系统 ， 是 一 个 由 一 百 多 人 组 
成 的 小 组 ， 经 过 七 年 的 否 战 才 研 制 成 功 的 。 这 个 研究 组 中 有 三 十 三 人 是 
研究 员 水 平 的 专家 ， 占 小 组 的 百 分 之 三 十 左右 ， 由 此 可 见 自然 语言 处 理 
研究 人 员 素 质 之 重要 。 为 了 进一步 推动 我 国 的 目 然 语 言 处 理事 业 ， 我 们 
切 不 可 忽视 这 个 问题 。 























其 次 ， 要 处 理 好 探索 性 研究 和 工程 性 研究 的 关系 。 


实用 的 机 器 翻 译 系 统 、 人 机 对 话 系 统 、 信 息 检 索 系 统 、 信 息 抽取 系 
统 、 文 本 数据 挖掘 系统 、 目 然 语言 智能 控制 系统 ， 者 是 要 经 过 长 期 的 调 
试 和 不 断 的 优化 才 可 能 建成 的 。 在 进行 这 样 的 工程 性 的 上 自然 语言 处 理 研 
完 的 初期 阶段 ， 必 定 要 进行 大 量 的 艰苦 的 探索 性 研究 。 例 如 ， 在 工程 性 
的 机 需 翻 译 系统 的 研制 过 程 中 ， 首 移 要 进行 探索 性 研究 ， 着 重 探索 机 器 
词典 中 种 用 词 的 规律 ， 不 要 一 开始 吕 去 盲目 地 扩大 词典 的 容量 。 因 为 机 
名 词典 中 每 增加 一 个 常用 词 ， 束 可 能 要 在 系统 中 增加 新 的 规则， 或 者 要 
修改 原 有 的 规则 ， 而 新 的 规则 的 发 现 和 增加 ， 又 往往 会 导致 整个 系统 的 
规则 的 重新 组 合 和 调整 。 只 有 当 词 典 中 常用 词 的 信息 基本 上 定 下 来 ， 和 锦 
用 词 的 频率 窗 盖 面 增加 到 所 研究 的 子 语言 素材 的 90% 以 上 ， 而 且 系 统 的 
规则 基本 上 能 反映 这 种 子 语言 的 语法 面貌 和 语义 关系 的 时 候 ， 才 有 可 能 
进入 工程 性 研究 的 阶段 。 第 用 词 一 般 都 是 语法 多 义 词 或 语义 多 义 词 ， 如 
英语 的 of， 法 语 的 de， 汉 语 的 “的 ”等 高 频率 常用 词 ， 其 用 法 是 极为 复杂 
的 ， 而 如 果 这 些 常用 词 的 信息 处 理 不 当 ， 由 于 它们 在 文章 中 到 处 出 现 ， 




















必 将 严重 地 影响 到 规则 系统 的 质量 和 效用 。 因 此 ， 在 探索 性 研究 阶段 ， 
一 定 要 下 苦 工 夫 来 研究 常用 词 的 用 法 和 它们 的 基本 语法 语义 规律 。 到 了 
工程 性 的 研究 阶段 ， 才 来 有 针对 性 地 扩充 词典 ， 进 一 步 优 化 规则 。 这 一 
阶段 的 工作 量 也 很 大 。 但 是 ， 只 要 探索 性 阶段 的 研究 做 得 扎实 ， 就 可 以 
保证 工程 性 阶段 研究 的 顺利 进行 ， 收 到 水 到 渠 成 的 效果 。 所 以 ， 在 目 然 
语言 处 理 的 工程 性 系统 研制 的 全 过 程 中 ， 应 该 把 主要 力量 放 在 探索 性 研 
完 阶 段 ， 决 不 能 急于 求 成 ， 为 了 急于 要 搞 工 程 性 研究 而 放弃 探索 性 研 

客 。 探 索性 研 完 做 得 越 好 ， 我 们 就 能 越 深 入 地 了 解 汉 语 的 性 质 ， 发 现 汉 
语 更 多 的 特性 ， 从 而 丰富 世界 计算 语言 学 的 内 容 。 











第 三 ， 应 该 处 理 好 全 局 性 研究 和 局 部 性 研究 的 关系 。 


以 机 需 翻 译 的 研究 为 例 ， 过 去 我 国 许多 机 器 翻译 系统 的 研究 工作 ， 
一 般 忆 是 选 择 一 定数 量 的 素材 ， 然 后 对 这 些 系 材 进行 语言 调查 ， 抽 象 出 
其 语法 语义 规则 ， 最 后 根据 语言 调查 的 结果 ， 编 制 机 堪 翻 译 的 规则 系 
统 ， 建 立 机 器 词典 。 由 于 规则 和 词典 都 是 针对 事先 选择 好 的 语言 素材 编 
制 的 ， 所 以 ， 在 这 些 有 限 的 素材 范围 内 ， 一 般 都 能 够 得 到 比较 好 的 译 
文 ， 但 是 ， 一 旦 增加 新 的 语言 材料 ， 译 文 的 质量 就 会 总 剧 地 下 降 。 用 这 
样 的 方式 建立 的 机 器 翻译 系统 可 以 发 现 语言 的 东 些 局 部 的 规律 ， 也 可 以 
试验 东 些 算法 ， 但 显然 是 无 法 付 诸 实用 的 。 为 了 建立 较 大 规模 的 、 实 用 
性 的 机 絮 翻 译 系 统 ， 必 须 作 全 局 性 的 研究 。 这 种 全 局 性 的 研究 一 般 可 以 
分 两 步 来 进行 。 首 先 从 原 语 和 译 语 的 总 体 出 发 ， 设 计 出 一 个 抽象 的 算法 
和 在 抽象 数据 上 实施 的 一 系列 抽象 的 操作 ， 建 立 起 抽象 的 语言 模型 ， 而 
不 管 语言 现象 的 各 种 细微 末节。 这 种 全 局 性 的 抽象 语言 模型 的 设计 ， 要 
求 尽 可 能 地 全 面 反映 原 语 和 译 语 的 语言 面貌 ， 因 此 ， 它 应 当 建 立 在 全 面 
地 进行 语言 研究 的 基础 之 上 。 在 全 局 性 的 抽象 语言 模型 建立 之 后 ， 束 不 
难 把 它 分 解 成 看 干 相对 独立 的 子 问 题 ， 进 行 局 部 性 的 研究 。 由 于 各 个 子 























问题 只 涉及 局 部 的 环境 和 条 件 ， 这 样 殊 有 可 能 精细 入 微 地 研究 它们 的 各 
种 细节 ， 建 立 起 机 右 翻 译 的 规则 系统 来 。 采 用 这 样 的 方式 建 并 的 规则 系 
统 ， 还 需要 通过 大 量 的 语言 系 材 进行 检验 ， 在 实践 中 不 断 地 丰富 和 充 

实 ， 使 之 日 趋 完善 。 如 果 我 们 在 机 器 翻译 的 研究 之 初 ， 就 陷入 到 各 种 局 
部 性 的 细微 末 市 中 去 ， 淹 没 在 语言 现象 的 汪洋 大 海 之 中 ， 而 不 能 从 全 局 
性 的 抽象 语言 模型 的 角度 去 观察 问题 ， 等 到 发 现 整 个 系统 在 全 局 上 左 文 
右 拙 、 进 退 维 谷 的 时 候 ， 再 回 过 头 来 摘 全 局 性 研究 ， 那 束 会 造成 人 力 和 
财力 的 浪费， 甚至 导致 整个 机 器 翻 译 系 统 的 报废 。 这 种 情况 ， 在 国内 外 
机 器 翻译 系统 的 研制 中 不 乏 先 例 ， 我 们 一 定 要 引 以 为 训 。 可 见 ， 如 何 正 
确 地 处 理 好 全 局 性 研究 和 局 部 性 研究 的 关系 ， 把 这 两 方面 的 研究 恰当 地 
结合 起 来 ， 是 进一步 搞 好 我 国 自然 语言 处 理 研究 的 一 个 应 该 注意 的 问 
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第 四 ， 应 该 处 理 好 当代 语言 研究 中 的 经 验 主义 方法 和 理性 主义 方 
法 的 关系 。 





近年 来 ， 国 际 计算 语言 学 越 来 越 注意 未 经 编辑 的 、 非 受 限 的 大 规模 
真实 文本 的 处 理 ， 语 料 库 语言 学 在 自然 语言 处 理 研 究 中 寞 军 突起， 受到 
普遍 的 关注 ， 词 库 和 树 库 在 自然 语言 处 理 中 的 地 位 越 来 越 重要 ， 语 言 知 
识 的 颗粒 度 正 日 趋 精 细 ， 对 语料库 中 的 非 受 限 文 本 的 词性 标注 和 目 动 名 
法 分 析 己 取得 了 令 人 鼓舞 的 成 绩 。 国 际 计 算 语 言 学 界 把 这 种 基于 语 料 
库 、 词 库 和 树 库 的 经 验 主义 方法 确定 为 未 来 一 个 时 期 内 计算 语言 学 发 展 
的 战略 目标 ， 令 人 高 兴 的 是 ， 我 国 在 基于 统计 的 汉语 真实 文本 目 动 分 析 
方面 已 取得 了 突破 性 的 进展 ， 在 语言 知识 库 的 建设 中 取得 突出 的 成 绩 。 
这 种 经 验 主义 的 研究 方 法 有 助 于 全 面 地 观察 语言 现象 ， 殉 服 传统 语言 研 
客 的 局 限 性 和 片面 性 。 但 是 ， 在 采用 这 种 经 验 主义 方法 的 同时 ， 我 们 不 
能 忽视 理性 主义 的 方法 ， 即 基于 规则 的 上 自动 句法 一 语义 分 析 方 法 ， 这 种 


























理性 主义 的 方法 一 般 要 求 对 所 研究 的 语言 给 予 菜 种 程度 的 限制 ， 从 而 减 
少 句 法 一 语义 分 析 的 难度 ， 现 在 国内 外 都 已 经 采用 这 种 理性 主义 的 研究 
方法 ， 建 立 了 一 些 实用 的 自然 语言 处 理 系统 。 理 性 主义 方法 对 目 然 语言 
加 以 的 限制 ， 可 以 分 为 自然 限制 和 人 为 限制 两 种 。 目 然 限制 就 是 把 研究 
对 象 局 限于 茶 一 特殊 领域 的 子 语言 ， 由 于 专业 领域 或 文体 的 限制 ， 多 义 
词 的 处 理 和 上 下 文 的 分 析 就 比 大 规模 真实 文本 容易 得 多 了 。 人 为 限制 惑 
是 要 求 作者 按 规 定 书 写 原文 ， 对 作者 提出 的 限制 要 简单 、 目 然 ， 不 妨碍 
表达 思想 。 采 用 原文 限制 ， 可 以 使 目 然 语言 处 理 达 到 一 定 的 水 平 ， 而 又 
不 丧失 全 目 动 的 长 处 。 因 此 ， 国 内 外 许多 学 者 提出 了 "“ 受 限 语言 的 概 

念 。 研 究 实践 表明 ， 采 用 人 为 限制 的 受 限 语言 是 很 难 行 得 通 的 。 这 种 人 
为 的 受 限 语言 ， 在 词汇 、 语 法 、 甚 至 语义 上 对 语言 加 以 严格 的 人 为 限 

制 ， 而 这 些 限 制 也 必定 是 一 种 规定 ， 而 规定 实际 上 就 是 一 种 规则 。 人 为 
限制 虽然 其 本 意 是 为 了 减少 自然 语言 处 理 系 统 的 规划 ， 而 限制 的 结果 ， 
却 增 加 了 许多 专门 用 于 限制 的 新 规则 ， 这 种 人 为 的 受 限 语言 是 很 少 有 人 
愿意 使 用 的 。 比 较 可 行 的 办 法 是 采用 目 然 限 制 的 受 限 语言 ， 也 丈 是 把 目 
然 语 言 处 理 系 统 限 制 在 一 定 的 子 语言 范围 内 。 实 际 上 ， 除 了 这 种 由 于 专 
业 的 特点 而 形成 的 子 语言 之 外 ， 还 存在 着 大 量 的 、 非 人 为 的 、 以 目 然 状 
态 存在 的 受 限 语言 。 例 如 ， 科 技术 语 就 是 这 样 的 非 人 为 的 受 限 语言 ， 这 
样 的 受 限 语言 ， 具 有 简明 性 、 单 义 性 、 确 切 性 、 严 格 性 等 特点 ， 它 们 之 
所 以 成 为 受 限 语 言 ， 并 不 是 人 为 地 形成 的 ， 而 是 由 于 它们 本 里 的 特点 目 
然 地 形成 的 。 这 样 的 受 限 语言 ， 其 词汇 、 语 法 、 语 义 的 结构 关系 都 党 着 
全 民 共 同 语 的 制约 ， 反 映 了 全 民 共 同 语 的 性 质 。 汉 语 的 科技 术语 ， 特 别 
是 词组 型 科技 术语 ， 也 有 句法 结构 和 语义 结构 。 我 们 研究 发 现 ， 它 们 的 
这 些 结构 与 汉语 的 句子 结构 存在 着 同 构 关 系 。 因 此 ， 只 要 把 这 些 词组 型 
术语 的 结构 弄 清楚 了 ， 汉 语 的 句子 结构 也 就 容易 和 弄 清 楚 了 。 中 文科 技术 
语 的 句法 一 语义 分 析 ， 也 许可 能 成 为 汉语 句子 的 句法 一 语义 分 析 的 突破 
口 。 这 是 汉语 术语 的 特点 给 我 们 带 来 的 有 利 条 件 。 对 这 种 受 限 语言 的 研 
























































完 ， 应 该 是 我 国 自 然 语言 处 理 研究 的 一 项 基础 性 工作 。 由 此 观 之 ， 在 我 
们 把 经 验 主义 方法 作为 当前 计算 语言 学 发 展 的 战略 目标 的 同时 ， 我 们 也 
不 能 忽视 理性 主义 的 方法 ， 我 们 应 该 把 二 者 结合 起 来 。 自 然 语言 的 计算 
机 处 理 ， 需 要 丰富 多 采 、 形 形 色色 的 各 种 知识 的 支持 ， 既 需要 通过 经 验 
主义 方法 获得 的 颗粒 度 很 细 的 知识 ， 也 要 需 通 过 理性 主义 方法 获得 的 颗 
粒度 较 粗 的 知识 。 就 是 在 大 规模 真实 文本 的 自动 标 注 中 ， 我 们 也 有 必要 
把 经 验 主义 的 语料库 方法 和 理性 主义 的 规则 方法 结合 起 来 ， 让 这 两 种 方 
法 相互 补充 ， 取 长 补 短 ， 相 得 益 彰 。 研 究 实践 证 明 ， 在 基于 经 验 主义 方 
法 的 统计 机 器 翻译 系统 中 ， 辅 之 以 理性 主义 的 规则 方法 ， 可 以 提高 统计 
机 器 翻译 的 质量 。 





























第 五 ， 应 当 加 强 语言 规范 化 和 标准 化 的 研究 ， 处 理 好 语言 的 规范 
化 和 标准 化 与 计算 机 软件 的 规范 化 和 标准 化 的 关系 。 





己 故 著名 科学 家 钱学森 先生 曾经 在 《中 文 信息 》1994 年 第 2 期 上 友 
表 了 《电子 计算 机 软件 与 新 时 期 的 语言 文字 工作 》 一 文 。 他 指出 ， 电 子 
计算 机 对 当代 文化 建设 有 着 重大 的 影响 ， 它 同 过 去 人 类 历史 上 语言 的 出 
现 、 文 字 的 出 现 、 造 纸 技术 的 出 现 、 印 刷 技术 的 出 现 一 样 ， 是 人 类 文化 
史上 的 大 事 。 西 方 世 界 在 20 世 纪 60 年 代 初 曾 产 生 过 “软件 危机 ”， 我 们 应 
该 引 以 为 训 。 目 前 ， 电 子 计算 机 技术 正 同 更 高 的 层次 到 进 ， 癌 智能 化 友 
展 ， 在 这 种 情况 下 ， 如 果 我 国 的 计算 机 语言 和 软件 设计 各 搞 一 套 ， 没 有 
统一 的 规划 ， 计 算 机 语言 繁杂 多 样 ， 各 不 相 谋 ， 等 到 “软件 危机 ? 赂 发 才 
独 手 挽救 ， 就 会 给 国家 造成 难以 佑 计 的 损失 。 在 经 讲 上 的 损失 ， 就 不 是 
几 亿 、 几 十 亿 元 的 问题 了 ， 还 会 耽误 我 国 的 社会 主义 建设 。 因 此 ， 钱 学 
和 森 主 张 从 现在 起 就 应 该 着手 进行 电子 计算 机 技术 和 软件 开发 及 其 规范 
化 、 标 准 化 的 宏观 筹划 。 我 国 系统 工程 学 家 汪 成 为 曾经 在 1986 年 提 
出 “电子 计算 机 也 是 语言 文字 工作 ”的 论点 ， 钱 学 条 非常 赞同 这 一 论点 ， 























他 认为 ， 电 子 计算 机 技术 和 软件 的 规范 化 、 标 准 化 与 语言 文字 工作 的 联 
系 最 为 密切 ， 我 们 应 该 把 这 个 问题 作为 社会 主义 文化 的 大 问题 来 抓 ， 把 
我 国电 子 计算 机 技术 的 发 展 和 国家 的 语言 文字 工作 结合 起 来 ， 面 向 现代 
化 ， 面 问世 界 ， 面 向 未 来 ， 为 祖国 的 建设 和 发 展 作出 贡献 。 





钱学森 对 电子 计算 机 软件 与 新 时 期 语言 文字 工作 之 间 的 关系 的 深刻 
论述 ， 对 于 自然 语言 处 理 研 究 也 同样 有 着 指导 意义 。 





目 然 语言 处 理 中 ， 不 论 是 机 器 翻译 、 自 然 语言 理解 、 信 息 自 动 检 
索 、 信 息 上 自动 抽取 、 文 本 数据 挖掘 、 术 语 数据 库 、 语 音 的 自动 识别 与 合 
成 、 汉 字 的 自动 识别 ， 都 牵涉 到 语言 文字 的 规范 化 和 标准 化 问题 。 例 
如 ， 为 了 提高 普通 话语 首 识别 和 语 首 合成 的 研究 水 平 ， 有 必要 建立 普通 
话语 首 库 和 语音 特征 库 ， 探 讨 汉语 语音 的 特征 ， 为 此 ， 必 须 做 好 普通 话 
语音 的 规范 化 工作 。 语 音 的 差别 不 仅 存 在 于 普通 话 和 方言 之 间 ， 而 且 也 
存在 于 普通 话 的 内 部 ， 为 了 解决 普通 话 内 部 读音 的 分 卜 问 题 ， 普 通话 审 
音 委 员 会 曾 于 1957 年 到 1962 年 三 次 发 表 了 《普通 话 异 读 词 审 音 表 初 
稿 》， 于 1963 年 辑录 成 《普通 话 三 次 审 音 表 初 稿 》，1985 年 又 公布 了 
《普通 话 异 恋 词 审 音 表 》， 这 些 文 件 对 于 普通 话 的 语音 规范 都 起 了 积极 
作用 。 汉 语 语音 识别 与 语音 合成 的 研究 ， 应 该 以 普通 话 的 标准 读音 为 
准 。 但 是 ， 在 我 国 一 些 权 威 性 的 词典 和 字典 中 ， 注 首 分 卜 还 不 小 ， 与 
《 审 音 表 》 也 不 尽 相 同 。 如 “ 纂 ?，《 现 代 汉 语词 典 》 注 作 zuan3，《 秤 
海 》 注 作 zuan4，《 审 音 表 》 未 作 规 范 ; HE’, COU gL) EE 
shi4, (HEE) YEVEzhel, Mistshi4, (HC EX) dEshi4fE ix, zhelfE 
Ai, (Ris ish) BCH) 4— €. RHE E, EET 
别 和 合成 的 研究 者 无 所 适 从 ， 在 这 种 情况 下 ， 他 们 建立 的 普通 话语 首 
和 语 首 特征 库 等 软件 就 很 难 是 标准 化 和 规范 化 的 。 另 外 ， 搞 计算 机 的 人 
在 研究 工作 中 遇 到 读音 问题 时 ， 一 般 总 是 直接 地 得 词典 或 字典 ， 不 大 会 
































去 查 《 审 首 表 》。 词 典 和 字典 的 注音 分 上 收 ， 对 自然 语言 处 理 的 软件 研究 
工作 十 分 不 利 。 我 们 建议 普通 话 审 音 委员 会 应 多 吸收 出 版 界 的 人 员 参 
加 ， 多 与 出 版 部 门 通气 ， 使 得 审 音 的 成 果 ， 能 够 迅速 地 在 词典 和 字典 中 
反映 出 来 ， 以 便于 从 事 上 自然 语言 处 理 和 软件 开发 的 人 员 使 用 。 











机 器 翻译 、 自 然 语言 理解 中 要 使 用 形态 词典 、 结 构 词 典 和 语义 词 
典 ， 词 典 的 研制 是 机 器 翻译 和 自然 语言 理解 的 一 个 基本 项 目 ， 因 为 在 机 
器 翻译 和 自然 语言 理解 中 所 需要 的 各 种 静态 信息 以 及 一 部 分 动态 信息 ， 
都 要 通过 词典 来 提供 。 











机 读 汉 语词 典 的 研制 ， 与 普通 话 的 词汇 规范 有 着 密切 关系 。 普 通话 
规定 以 北方 方言 为 基础 方言 ， 主 要 是 指 普通 话 词汇 应 以 北方 方言 的 词汇 
作为 基础 ， 但 北方 方言 词汇 内 部 的 情况 十 分 复杂 ， 哪 些 词 可 以 纳入 普通 
话 ， 哪 些 词 不 能 纳入 普通 话 ， 都 需要 经 过 透彻 的 调查 研究 才 有 可 能 决 
定 。 比 如 “太阳 ”这 个 词 ， 仅 在 北方 方言 区 的 河北 省 ， 就 有 “日 头 、 日 头 
4. ASML. HBL. PEL SB. KE. BB. DEL. NDA: 
4. BRASJL. BRP, OE. KERI BAREL E 
要 进行 筛选 。 这 是 同 实 异 名 的 问题 。 另 外 ， 还 有 同名 异 实 的 问题 。 比 
如 ， 在 河北 省 内 ，*“ 山 药 这 个 词 的 含义 因 地 而 异 ， 在 石家庄 指 “ 红 暮 ”， 
在 张家口 指 “ 土 豆 ”， 普 通话 中 如 何 处 理 这 类 问题 ， 也 需要 进行 研究 。 目 
前 ， 和 急需 在 北方 话 词汇 调查 的 基础 上 ， 编 号 一 部 规范 的 普通 话 通用 词 
典 ， 使 之 成 为 机 读 汉语 词典 收 词 的 基本 依据 。 






























































编写 机 读 汉 语词 典 的 另 一 个 问题 是 正 词 法 问题 。 完 竟 什 么 算是 一 个 
词 ， 什 么 不 能 算 一 个 词 ， 必 须 有 明确 的 规定 才能 收入 机 读 汉 语词 典 。 现 
在 ， 国 家 语言 文字 工作 委员 会 公布 了 《汉语 拼音 正 词 法 基本 规则 》， 为 
这 个 问题 的 解决 提供 了 依据 。 但 是 ， 与 此 同时 ， 国 家 技术 监督 局 又 公布 
了 《信息 处 理 用 现代 汉语 分 词 规范 》， 并 以 此 作为 国家 标准 ， 其 中 有 一 

















些 规定 与 《汉语 拼音 正 词法 基本 规则 》 不 一 致 ， 这 将 会 给 与 机 读 汉 语词 
典 的 编制 有 关 的 计算 机 软件 工作 人 为 地 造成 一 些 新 的 困难 。 我 们 认为 ， 

言 轧 处 理 用 的 分 词 规范 与 正 词法 应 该 统一 起 来 。 人 否则 ， 在 目 然 语言 处 理 
的 系统 研制 、 人 员 塔 训 、 推 广 应 用 等 方面 ， 都 会 带 来 许多 不 必要 的 厅 

烦 。 

















机 器 翻译 、 目 然 语言 人 机 接口 、 信 息 目 动 检 索 等 自然 语言 处 理 系 统 
主要 应 用 于 科技 方面 ， 因 此 ， 在 自然 语言 处 理 的 研究 中 ， 还 应 该 注意 科 
技术 语 和 译名 的 规范 化 问题 。 目 前 ， 汉 语 的 科技 术语 使 用 比较 混乱 ， 同 
实 异 名 的 情况 相当 之 多 。 如 数学 中 的 “公理 : 公设 人 “无穷 : 无 
BR”. “AFR: 全 序 ”"“ 半 序 : fW". “RE: Il”. “Hi: 算 
fp. “EAL: 不 可 约 ” 等 ， 同 实 腊 名 的 现象 也 不 少 ， 如 计算 机 科学 中 
的 “ 共 行 操作 同时 操作 :并 行 操作 ”等 ， 数 学 和 计算 机 都 是 十 分 严格 的 
精密 的 学 科 ， 术 语 的 混乱 尚且 如 此 严重 ， 在 其 他 学 科 中 术语 的 混乱 情 
况 ， 也 束 可 想 而 知 了 。 这 对 于 上 自然 语言 处 理 系 统 的 软件 开发 是 极为 不 利 
的 。 对 于 同 实 腊 名 的 术语 ， 应 该 使 之 逐渐 统一 ， 对 于 同名 寞 实 的 术语 ， 
应 该 使 之 逐渐 分 化 ， 尽 量 使 术语 保持 单 义 性 。 




















外 国 科 学 家 的 译名 也 相当 混乱 。 例 如 ， 数 学 家 De ”Morgen 的 译名 
ARRA ESRB. REGIE. BRTROD. Bx. TERE. KEEL 
儿 ” 等 ， 这 必然 会 在 自然 语言 的 计算 机 处 理 系统 中 造成 张冠李戴 的 混乱 
现象 ， 应 该 按照 名 从 主人 和 约定 俗 成 的 原则 ， 以 慎重 的 态度 进行 协调 和 
统一 。 








机 峰 翻 译 和 目 然 语言 理解 ， 都 要 进行 语法 分 机 和 生成 ， 语 义 分 析 和 
生成 ， 上 下 文 分 析 和 生成 ， 这 些 痢 需要 对 普通 话 的 语法 和 语义 进行 深入 
的 研究 ， 并 使 之 形式 化 。 


目 然 语 言 中 普 过 存在 着 歧义 现象 ， 汉 语 的 语法 结构 多 用 意 合 法 ， 攻 
义 现象 更 为 突出 。 这 样 的 皮 义 现象 ， 是 汉语 分 析 和 生成 中 应 该 给 予 特别 
注意 的 。 例 如 ,， “前 侠 果 的 刀 ” 和 “前 苹果 的 皮 ”"， 其 结构 部 是 “V+ N + 的 + 
N”， 但 其 层次 很 不 相同 。 这 种 结构 歧义 现象 在 汉语 中 比比 省 是 ， 我 们 在 
第 五 革 中 己 经 作 了 详细 的 分 析 ， 在 研制 汉语 的 自然 语言 处 理 系统 时 ， 这 
些 皮 义 问题 应 该 着 重地 加 以 解决 。 我 国学 者 在 对 汉语 歧义 结构 的 分 析 研 
究 中 ， 已 经 提出 了 一 些 有 效 的 理论 和 方法 。 进 一 步 深 入 研究 汉语 的 歧义 
问题 ， 是 汉语 的 自然 语言 处 理 中 的 一 个 关键 性 问题 。 





























同时 ， 我 们 应 该 看 到 ， 目 前 在 汉语 中 还 有 一 些 语法 结构 并 不 是 由 自 
然 语言 本 身 固有 的 歧义 造成 的 ， 而 是 由 于 规范 化 不 够 而 造成 的 。 例 
al, “摄氏 20 度 以 上 ”， 有 人 理解 为 包括 20 度 在 内 ， 有 人 认为 不 能 包括 20 
度 在 内 ， 人 尚且 判别 不 了 ， 计 算 机 当然 就 更 难 判别 了 ; REIRET a 
H TERRAE” AAR ERK BERRA =a Z9. 有 人 却 认 为 既然 “一 
成 "是 十 分 之 一 FR ANTIL a abe, RBA; "ARN 
把 这 个 地 区 的 粮食 产量 翻 两 番 ”， 有 人 把 “ 翻 两 番 ” 理 解 为 增加 两 倍 ， 有 
人 理解 为 增加 三 倍 〈 翻 一 番 为 两 倍 ， 在 原 有 基础 上 再 翻 一 番 为 三 倍 ) ， 
有 人 则 理解 为 增加 四 倍 《〈 翻 一 番 为 两 倍 ， 在 两 倍 的 基础 上 再 翻 一 番 为 四 
fü) ，“ 还 炙 款 4 ”000 元 ”， 有 人 把 “还 ” 读 为 huan2， 理 解 为 已 经 赔 还 了 欠 
款 4 000 元 ， 有 人 把 “还 ” 读 为 hai2， 理 解 为 仍然 欠 球 4 000 元 ， 仁 者 见 仁 ， 
智者 见 知 ， 由 此 而 引起 经 济 工作 的 许多 麻烦 。 这 些 皮 义 问 题 ， 都 需要 由 
有 关 部 门 做 出 明确 的 规定 ， 才 可 以 在 自然 语言 处 理 中 避免 误解 。 汉 语 的 
否定 用 法 也 比较 混乱 ， 有 许多 肯定 形式 与 否定 形式 的 含义 都 相同 的 句 
式 。 例 如 , “难免 要 犯错 误 2” 和 "难免 不 犯错 误 ” 的 含义 相同 , “除非 他 
来 ， 我 就 去 ?和 “除非 他 来 ， 我 不 去 ”的 含义 相同 。 在 自然 语言 处 理 
H, “和 否定 ”的 逻辑 含义 与 “肯定 ”的 逻辑 含义 是 完全 相反 的 ， 如 果 和 否定 之 
后 的 含义 与 肯定 一 样 ， 将 会 给 计算 机 的 理解 带 来 极 大 的 困难 。 我 们 希望 









































有 关 部 门 ， 对 于 这 些 不 清晰 的 、 有 分 歧 的 用 法 ， 根 据 语言 发 展 规 律 ， 选 
择 其 中 的 一 种 作为 规范 ， 废 除 不 规范 的 用 法 。 


由 此 可 见 ， 加 强 语言 文字 的 规范 化 和 标准 化 ， 对 于 进一步 搞 好 自然 
语言 的 计算 机 处 理 ， 具 有 极其 重要 的 作用 和 深远 的 意义 ， 计 算 机 软件 工 
作 实 际 上 也 是 语言 文字 工作 ， 我 们 应 该 有 战略 的 眼光 ， 大 力 纠 正 语言 文 
字 应 用 中 的 混乱 现象 ， 努 力促 进 语言 文字 的 规范 化 和 标准 化 。 





同 过 去 的 研究 结果 相 比 ， 我 国 的 自然 语言 处 理 研究 确实 已 经 取得 了 
很 大 的 成 绩 ， 已 经 研制 出 一 些 实用 性 的 自然 语言 处 理 系 统 ， 一 些 研究 成 
条 ， 已 经 走出 国门 ， 在 世界 上 获得 了 较 好 的 评价 ， 但 是 不 得 不 承认 ， 同 
国际 自然 语言 处 理发 展 的 水 平 相 比 ， 还 有 很 大 的 差距 ， 我 们 不 论 在 基础 
理论 的 研究 上 还 是 在 实际 应 用 的 研究 上 ， 都 相当 落后 。 面 对 这 样 的 状 
况 ， 我 们 应 该 有 紧迫 感 ， 要 面 癌 世界 ， 更 大 地 属 开 国门 ， 加 速 我 国 目 然 
语言 处 理 研究 的 世界 化 过 程 。 














现在 ， 互 联网 的 使 用 越 来 越 广泛 , “上 机 上 网 ?已 经 成 为 普通 人 的 寻 
事情 。 互 联网 上 的 信息 多 种 多 样 ， 有 语言 文字 信息 ， 也 有 图 形 图 像 信 
， 还 有 首 乐 信息 ， 但 主要 还 是 语言 文字 信息 ， 也 就 是 说 ， 网 络 世 界 主 
是 由 语言 文字 构成 的 。 
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为 了 说 明 自 然 语言 处 理 的 重要 性 ， 我 们 把 它 与 物理 学 做 如 下 的 类 
LE: 我 们 说 物理 学 之 所 以 重要 ， 是 因为 物质 世界 是 由 物质 构成 的 ， 而 物 
理学 恰恰 是 研究 物质 运动 的 学 科 ; 我 们 说 自然 语言 处 理 之 所 以 重要 ， 是 
因为 网 络 世界 主要 是 由 语言 文字 构成 的 ， 而 自然 语言 处 理 恰恰 是 研究 语 
言 文字 自动 处 理 的 学 科 。 














可 以 预见 ， 知 识 的 日 新 月 异 和 网 络 技术 的 突 飞 狐 进 ， 一 定 会 把 自然 


语言 处 理 的 研究 推 向 一 个 库 新 的 阶段 。 自 然 语言 处 理 有 可 能 成 为 当代 语 
言 学 中 最 有 发 展 潜力 的 领域 ， 给 有 着 悠久 传统 的 古老 的 语言 学 注入 新 的 
生命 力 ， 在 它 的 推动 下 ， 语 言 学 有 可 能 真正 成 为 当代 科学 百花 园 中 的 一 
门 领先 学 科 。 
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我 与 语言 学 割舍 不 断 的 缘分 


My love to linguistic research 
ns 


我 是 一 名 普通 的 语言 学 研究 者 ，《 当 代 外 语 研究 》 主 编 杨 枫 老 师 要 
我 写 一 篇 文章 介绍 自己 的 治学 经 验 ， 我 很 愿意 与 广大 读者 交流 自己 学 习 
和 研究 语言 学 的 心得 ， 因 此 束 欣 然 同意 了 。 在 这 里 ， 我 想 讲 一 讲 目 己基 
理学 文 、 莽 文 从 理 ， 最 后 又 弃 理 从 文 的 曲折 过 程 ， 谈 一 谈 50 多 年 来 目 己 
与 语言 学 之 间 制 舍 不 断 的 缘分 。 





1. F EZX 


我 于 1939 年 4 月 15 日 出 生 于 云南 昆明 。1946 年 考 入 昆明 市 长 春 路 东 
升 小 学 读书 ，1951 年 以 全 昆明 市 会 考 第 一 名 的 好 成 绩 考 入 昆明 一 中 就 
读 。 昆 明 一 中 是 云南 省 著名 的 重点 学 校 ， 曾 培育 了 无 数 的 英才 。 获 诺 贝 
尔 奖 的 著名 物理 学 家 杨 振 守 、 著 名 哲学 家 芯 思 奇 、 著 名 出 版 家 黄 洛 峰 等 
等 ， 都 兽 经 是 这 个 学 校 的 学 生 。 入 学 后 ， 我 下 决心 退 赶 这 些 曾经 给 昆明 
一 中 带 来 声誉 的 前 辈 老 校 友 ， 努 力 地 学 习 ， 从 初 一 到 高 三 ， 我 每 年 的 总 
平均 分 都 名 列 全 校 第 一 ， 成 为 了 昆明 一 中 的 好 学 生 。 








1957 年 高 中 毕业 时 ， 我 以 云南 省 理科 第 一 名 的 成 绩 考 入 北京 大 学 地 
球 化 学 专业 本 科 就 读 ， 一 心 想 研 究 化 学 元 票 在 地 球 上 的 分 布 规律 。 当 时 
我 的 兴趣 主要 是 在 入 有 元 床上 ， 它 们 在 元 素 周 期 表 上 是 排 在 比较 后 的 元 
素 ， 是 国家 很 需要 的 目 然 资源 。 我 非常 热爱 地 球 化 学 专业 ， 当 时 也 没有 
任何 从 事 其 他 学 科 的 想法 ， 这 个 学 科 确 实 也 很 有 意思 。 地 球 化 学 在 上 世 
纪 50 年 代 属 于 国家 要 重点 发 展 的 尖端 学 科 之 一 ， 在 地 球 科学 里 面 ， 地 球 
化 学 也 是 属于 最 先进 的 学 科 。 














我 在 入 学 后 曾经 对 五 光 十 色 的 矿物 发 生 了 浓厚 的 兴趣 ， 研 究 这 些 矿 
物 的 晶体 结构 ， 如 醉 如 奖 地 观察 厦 不 同 结晶 形 状 的 各 种 矿物 ， 六 方 唱 系 
的 金刚 石 、 方 斜 唱 系 的 石墨 .……， 这 些 立 体 结 构 不 同 的 矿物 有 着 兰 异 很 
大 的 物理 和 化 学 性 质 。 我 深 深 地 被 大 目 然 的 奥秘 吸引 住 了 。 








就 在 我 认真 学 习 地 球 化 学 的 前 后 ， 国 外 兴起 了 数理 语言 学 ， 建 立 起 
了 完善 的 理论 和 方法 ， 一 些 大 学 中 开设 了 数理 语言 学 的 谍 程 ， 数 理 语言 
学 作为 一 个 独立 的 学 科 出 现在 现代 语言 学 的 百花 园 中 ， 日 蔓 分 芳 灿 烂 。 





1956 年 ， 我 国 开始 注意 到 国外 数理 语言 学 的 兴起 和 发 展 ， 在 我 国 科 
学 研究 的 发 展 规划 中 ， 确 立 了 和 名称 叫 做 “机 需 翻 译 ， 目 然 语言 翻译 规则 
的 建立 和 目 然 语 言 的 数学 理论 ”的 读 题 。 这 个 谍 题 包括 两 部 分 : 一 部 分 
征 机 天 翻译 ， 忆 一 部 分 是 目 然 语 言 的 数学 理论 ， 也 就 是 今天 我 们 所 说 


的 “数理 语言 学 ”(mathematical linguistics) 。 








一 个 偶然 的 机 会 使 我 了 解 到 数理 语言 学 这 个 新 兴 的 语言 学 科 。 


1957 年 冬天 ， 我 在 北京 大 学 图 书馆 馆藏 的 1956 年 出 版 的 美国 《信息 
论 》 (IRE Transaction, Information Theory ) 杂志 上 ， 无 意 中 看 到 了 美 
国语 言 学 家 乔 姆 斯 基 CN. Chomsky) 的 论文 《语言 描写 的 三 个 模型 》 
CThree models for the description of language ) 这 篇 文章 ， 被 乔 姆 斯 基 
在 语言 研究 中 的 新 思想 深 深 地 吸引 了 。 乔 姆 斯 基 仍 求 语言 描写 的 简单 性 
原则 ， 为 了 使 用 有 限 的 手段 描述 变化 无 穷 的 自然 语言 ， 在 他 的 文章 中 ， 
建立 了 形式 语言 和 形式 文法 的 新 概念 ， 他 把 自然 语言 和 计算 机 程序 设计 
语言 置 于 相同 的 平面 上 ， 用 统一 数学 方法 进行 解释 和 定义 ， 提 出 了 语言 
描写 的 三 个 模型 。 用 数学 方法 描写 的 这 三 个 模型 是 这 样 地 抽象 ， 它 们 既 
可 以 用 于 描写 自然 语言 ， 又 可 以 描写 计算 机 程序 设计 语言 ， 达 到 了 “有 
限 手 段 的 无 限 运 用 ”的 目标 。 

















我 预感 到 这 种 语言 的 数学 描写 方法 ， 将 会 把 自然 语言 和 程序 设计 语 
言 紧密 地 结合 起 来 ， 在 信息 的 处 理 和 研究 中 发 挥 出 巨大 的 威力 。 乔 姆 斯 
基 当 时 未 满 30 岁 ， 还 是 一 个 名 不 见 经 传 的 青年 语言 学 家 ,但 是 他 的 文章 
中 却 内 净 着 智 意 的 光芒 ， 我 完全 被 他 的 续 越 智慧 征服 了 。 


经 过 反复 考虑 ， 我 下 决心 来 研究 数学 方法 在 语言 中 的 应 用 这 个 问 
题 ， 并 经 学 校 同 意 ， 我 弃 理 学 文 ， 从 理科 转 到 中 文系 语言 学 专业 从 事 语 
言 学 的 学 习 。 


2. 胡耀邦 鼓励 我 学 习 数理 语言 学 


转 入 语言 学 专业 之 后 ， 情 况 并 不 像 我 原来 预想 的 那样 顺利 。 








当时 的 中 文系 语言 学 专业 要 求学 生 学 习 大 量 的 传统 语言 学 谍 程 ， 
如 “汉语 史 ”“ 文 字 学 ”人 “音韵 学 "“ 训 旋 学” 等， 根本 没有 开设 任何 与 
数理 语言 学 有 关系 的 课程 ， 而 我 的 志 回 是 用 数学 方法 研究 语言 ， 与 学 校 
的 课程 安排 有 很 大 的 出 入 。 因 此 ， 我 一 面 要 学 习 这 些 传统 语言 学 的 课 
程 ， 一面 还 要 利用 课余 时 间 ， 继 续 研 究 我 有 兴趣 的 数理 语言 学 问题 ， 我 
需要 同时 在 两 条 战线 上 作战 ， 感 到 时 间 很 不 够 用 。 我 终日 埋头 读书 ， 不 
怎么 关心 政治 。 尽 管 我 努力 学 习 学 校规 定 的 这 些 传统 语言 学 读 程 ， 成 绩 
总 是 名 列 前 苯 ， 而 且 还 学 会 了 4 门 外 语 ， 但 是 ， 同 学 们 对 于 我 这 个 理科 
转 过 来 的 学 生 不 理解 ， 有 的 同学 发 现 我 能 够 解 一 些 非常 繁 难 的 数学 问 
题 ， 感 到 十 分 奇怪 。 他 们 觉得 ， 数 学 这 样 好 的 人 居然 改行 来 中 文系 学 语 
言 学 ， 简 直 是 菲 夷 所 思 ! 我 在 班 上 显得 很 孤立 。 























1961 年 秋天 ， 团 中 央 机 关 建 立 了 这 样 一 个 制度 : 团 中 央 书 记 处 的 每 
一 位 书记 至 少 直接 联系 一 个 团 文 部， 作为 了 解 情况 和 结交 青年 朋友 的 一 
个 渠道 。1961 年 11 月 ， 北 京 市 团 市 委 为 团 中 央 第 一 书记 衣 粹 邦 选 定 北京 
大 学 59 级 语言 学 专业 团 支 部 作为 联系 点 。 胡 洽 邦 首先 找 这 个 班 的 团 支 部 
书记 和 宣传 委员 了 解 情 况 ， 问 他 们 :“ 你 们 同学 中 有 学 习 特 别 专 心 的 
吗 ? ”他 们 回答 介绍 说 : “我 们 班 有 个 同学 叫做 冯 志 伟 的 学 习 特 别 好 ， 他 
己 经 学 了 英语 、 俄 语 、 德 语 和 日 语 ， 而 且 达 到 相当 水 平 ， 但 是 好 像 不 是 
AICO BUA. "WAM: “我 希望 找 冯 志 伟 同学 亲自 谈 一 谈 。” 











团 中 央 第 一 书记 邀请 的 消息 传 给 了 我 ， 我 感到 非常 激动 。1961 年 11 
月 11 日 ， 北 京 大 学 团委 安排 我 和 其 他 4 名 同学 一 起 到 住 在 富强 胡同 的 大 


炊 邦 家 做 客 。 晚 饭 后 我 们 乘 公共 汽车 进 城 ， 当 时 北京 的 公交 车 数量 严重 
不 足 ， 乘 车 的 人 很 多 ， 我 们 没有 挤 上 从 颐和园 路 过 北大 开 往 西直门 的 32 
路 汽车 ， 急 中 生 智 ， 干 脆 从 北大 乘 车 到 起 点 站 颐和园 ， 再 从 颐和园 乘 车 
直 奔 北京 市 内 ， 妆 我 们 赶 到 富强 胡同 时 已 经 是 晚上 9 点 多 钟 了 。 明 滩 邦 
还 在 一 直 等 待 着 我 们 ， 他 也 等 得 有 些 着 急 了 。 








我 们 在 会 客室 坐 下 ， 胡 次 邦 给 我 们 每 个 同学 递 上 了 一 个 人 苹果， 依次 
询问 我 们 每 个 人 的 姓名 、 籍 贯 。 


当 胡 耀邦 问 到 我 的 时 候 ， 他 说 : “你 就 是 那个 学 了 4 种 外 国语 的 同学 
冯 志 伟 吗 ? 你 学 习 那么 努力 ， 挨 批 了 没有 ? ” 


我 回答 说 :“ 其 实 我 学 习 只 是 出 于 对 语言 学 的 兴趣 ， 目 己 只 是 想 多 
学 点 东西 而 已 。” 





当时 的 社会 风气 不 主张 学 生 学 习 外 语 ， 认 为 那 是 “条 洋 媚外 ””， 胡 泡 
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的 动机 和 过 程 。 


我 回 胡 滩 邦 作 了 如 下 的 自我 介绍 : 


我 原 是 昆明 一 中 的 学 生 ，1957 年 考 入 北京 大 学 地 球 化 学 专业 学 习 ， 
比 同班 同学 早 两 年 进入 北大 。1958 年 ， 我 在 一 本 英文 的 信息 论 杂 志 上 ， 
读 到 了 一 篇 关于 运用 数学 方法 研究 语言 的 文章 ， 顿 时 灵感 火花 四 溅 ， 觉 
得 这 样 的 研究 有 可 能 为 语言 在 计算 机 上 的 处 理 产 生 革 命 性 的 影响 。 我 
想 ， 我 的 数学 基础 很 好 ， 何 不 投身 到 这 个 领域 做 进一步 的 探索 ”于 是 ， 
我 要 求 转 到 语言 学 专业 学 习 ， 在 学 校 的 文 持 下 ， 我 在 1959 年 转 入 语言 学 

















专业 ， 一 面 学 习 语 言 学 读 程 ， 一 面 学 习 数 学 ， 同 时 关注 国际 上 运用 数学 
方法 研究 语言 问题 的 最 新 进展 ， 当 时 ， 国 际 上 把 这 样 的 研究 叫做 “数理 
语言 学 ”。 我 对 于 外 语 的 领悟 比较 灵敏 ， 到 1961 年 底 的 时 候 ， 已 经 学 会 
了 4 门 外 语 ， 而 且 能 够 使 用 这 4 种 外 语 阅 读数 理 语言 学 的 外 文 文献 了。 由 
于 我 对 于 数理 语言 学 有 强烈 的 兴趣 ， 数 理 语 言 学 是 交叉 学 科 ， 我 除了 学 
好 语言 学 的 谍 程 之 外 ， 还 要 自学 数学 和 外 语 等 不 同 的 学 科 ， 时 间 比 别 的 
同学 紧 ， 没 有 很 多 的 时 间 来 关心 政治 。 而 当时 学 校 的 政治 气氛 特别 浓 ， 
不 太 主 张 学 生 读书 ， 我 显得 有 些 古 怪 : 明明 是 学 中 文 的 文科 学 生 ， 一 有 
空 殉 做 些 数学 题 ， 还 经 第 读 扣 外 文书 ， 这 在 当时 是 很 不 合拍 的 。 所 以 ， 
有 的 同学 认为 我 是 在 走 “ 只 专 不 红 ” 的 道路 ， 对 我 左 有 人 微 词 ， 有 的 同学 还 
说 我 是 “孔子 学 生 继承 牛顿 事业 ， 认 为 我 的 学 习 方 同 特别 怪异 。 尺 管 我 
自己 还 没有 受到 批判 ， 但 是 ， 思 想 压 力 很 大 ， 心 里 不 大 痛快 。 











胡 炮 邦 带 着 关注 的 神色 耐心 地 昕 了 我 的 这 些 介绍 之 后 ， 正 色 地 对 我 
说 ;“ 事 实 将 证 明 你 的 道路 是 正确 的 ! ”他 的 话 斩 钉 截 铁 ， 撕 地 有 声 。 


胡 炊 邦 还 严肃 地 回 过 头 来 对 我 们 大 家 说 :“ 外 语 学 习 古 很 重要 的 ， 
我 们 需要 对 外 交流 ， 语 言 是 很 好 的 交流 工具 呀 ， 懂 了 外 语 可 以 扩大 了 眼 
界 。? 我 们 专心 地 聆听 着 ， 默 默 地 思考 着 ， 会 客室 的 气氛 显得 特别 肃 


TE. 





接 看 胡 滩 邦 换 了 语气 ， 开 始 和 大 家 轻松 地 聊天 。 他 告诉 大 家 :“ 学 
生 的 主要 任务 是 学 习 知 识 。 我 在 高 中 的 孩子 写 了 篇 作文 ， 老 师 出 题目 说 
什么 是 学 生 的 主要 任务 ? 我 的 孩子 写 道 : 学 生 的 主要 任务 是 提高 政治 水 
平 。” 他 笑 着 对 我 们 说 ， 现 在 不 少 人 对 学 生 的 主要 任务 的 认识 不 很 清 
楚 ， 其 实 ， 道 理 很 简单 :“ 学 生 的 主要 任务 是 学 习 。” 








谈话 结束 时 已 经 很 晚 了 。 我 们 告别 了 胡 浴 邦 ， 一 路 谈论 看 他 的 教 


导 ， 总 算 赶 上 了 末班车 顺利 地 回 到 了 北京 大 学 。 
从 这 次 谈话 后 ， 我 学 习 数 理 语言 学 更 加 理直气壮 了 。 


1964 年 ， 我 考 上 了 北京 大 学 理论 语言 学 专业 的 研究 生 ， 我 的 毕业 论 
MoMA wie: 《数学 方法 在 语言 研究 中 的 应 用 》， 在 我 国语 言 学 研究 
中 ， 首 次 系统 地 、 全 面 地 来 研究 数理 语言 学 这 个 新 兴学 科 。 








这 样 ， 我 国 的 数理 语言 学 研究 便 首 先 在 北京 大 学 正式 地 开展 起 来 。 
现在 媒体 报道 ， 北 京 大 学 的 计算 语言 学 研究 是 从 1985 年 开始 ， 敬 怕 与 事 
实 不 符 ， 我 觉得 似乎 应 当 是 从 1964 年 开始 的 。 








北京 大 学 中 文系 的 著名 语言 学 家 王 力 先 生 和 朱德 恕 先生 都 支持 我 的 
数理 语言 学 研究 。 





王 力 先 生 曾 对 我 说 :“ 语 言 学 不 是 很 简单 的 学 问 ， 我 们 应 该 像 赵 元 
任 先生 那样 ， 首 移 做 一 个 数学 家 、 物 理学 家 、 文 学 家 、 音 乐 家 ， 然 后 再 
做 一 个 合格 的 语言 学 家 。” 


朱德 照 先生 曾 对 我 说 ,，“ 数 学 和 语言 学 的 研究 都 需要 有 他 辑 抽 象 的 
能 力 ， 在 这 一 方面 ， 数 学 和 语言 学 有 共同 性 。” 





北京 大 学 的 这 些 第 一 流 的 学 者 ， 总 是 站 在 科学 的 最 前 沿 来 看 待 学 术 
的 发 展 ， 他 们 的 喜 励 给 了 我 巨大 的 力量 。 


但 是 这 时 候 发 生 了 一 件 事情 ， 就 是 1966 年 的 5 月 25 日 ， 第 一 张 马列 
主义 的 大 字 报 贴 到 了 北大 饭厅 的 门口 。 我 记得 很 清楚 那 一 天 是 5 月 25 
日 ， 因 为 那 一 天 我 要 去 买 一 本 法 文 词典 ， 当 时 的 《法 汉 词 典 》 编 得 很 不 
好 ， 很 简单 ， 单 词 太 少 了 。 我 学 过 日 文 ， 可 以 阅读 日 文 文献 ， 我 的 导师 





专 鹿 祥 教授 说 :“ 你 去 买 本 《从 和 词典 》 山 吧 ! ”， 于 是 ， 我 就 到 五 道口 
的 外 文书 店 买 了 一 本 《俊和 词典 》。 中 午时 分 ， 我 刚刚 在 五 道口 外 文书 
店 劳 边 的 小 饭馆 吃 完 中 人 饭 回 到 北京 大 学 ， 看 到 学 校 的 大 饭厅 前 人 头 斤 
动 。 我 伸 头 一 看 ， 大 饭厅 前 面 的 场 上 贴 着 大 字 报 呢 。 上 面 写 着 :“ 陆 
PF. SADBZVAMPIEGETERI?T ”， 言 词 很 激烈 ， 陆 平 是 北大 的 校长 ， 亚 
佩 云 是 北大 的 党 委 书 记 ， 她 现在 是 全 国 妇 联 的 领导 ， 他 们 俩 当时 被 认为 
古 北京 市 委 的 黑 线 人 物 ， 当 时 北京 市 长 彩 真 已 被 揪 出 来 了 。 我 一 看 到 大 
字 报 ， 就 知道 我 正在 准备 答辩 的 毕业 论文 泡汤 了 ， 一 场 很 大 的 革命 就 要 
来 临 了 。 





果然 ， 过 了 几 天 《人 民 日 报 》 就 发 表 了 社论 说 ，“ 这 是 一 张 马列 主 
义 的 大 字 报 ”， 一 下 把 火 点 起 来 了 。 北 大 进入 “文化 大 革命 "的 混乱 状 
态 ， 王 力 先生 和 和 朱德 照 先生 等 等 ， 都 被 打 成 反动 学 术 权 威 ， 我 的 数理 语 
言 学 研究 也 随 之 失去 了 支持 ， 这 个 新 兴学 科 的 研究 被 这 场 “革命 "扼杀 在 
袜 宰 之 中 。 我 的 数理 语言 学 之 梦 破灭 了 。 我 弃 理学 文 ， 意 在 用 数学 方法 
研究 语言 ， 现 在 ， 我 既 不 能 学 理 ， 也 不 能 学 文 ， 我 成 为 了 所 谓 的 “三 品 
学 生 ” 四 ， 随 之 离开 了 北京 大 学 ， 到 云南 边疆 的 一 所 中 学 里 当 一 名 物理 
教员 ， 又 只 好 弃 文 从 理 了 ! 











3. FL E ied C X f. 


在 云南 边疆 当 物 理 教员 的 这 段 时 间 里 ， 我 除了 认 认 真 真 地 教 好 学 
生 ， 努 力 做 好 本 职工 作 外 ， 仍 然 利 用 一 切 业 余 时 间 ， 密 切 地 关注 看 国外 
学 术 发 展 的 动向 。 


数理 语言 学 仍然 像 磁石 一 样 强烈 地 吸引 着 我 。 在 云南 边疆 那样 闭塞 


的 环境 中 ， 我 设法 利用 业余 时 间 ， 潜 心 研究 数理 语言 学 的 问题 ， 在 信息 
不 足 、 资 料 缺 乏 的 困难 条 件 下 ， 阅 读 了 我 所 能 搜集 到 的 各 种 关于 数理 语 
言 学 的 资料 ， 当 时 我 已 经 掌握 了 英 、 法 、 德 、 俄 、 日 等 5 种 外 国语 ， 可 
以 阅读 了 散 见 于 各 种 外 文书 刊 中 的 数理 语言 学 文献 ， 紧 跟 世 界 上 数理 语 
言 学 及 展 的 步伐 。 就 在 “读书 无 用 论 ” 其 器 人生 上 的 时 候 ， 我 总 结 了 当时 国 
外 数理 语言 学 的 成 果 ， 于 1975 年 ， 以 昆明 五 中 教师 的 名 义 ， 写 成 了 《 数 
理 语言 学 简介 》 的 长 篇 文章 ， 在 重庆 的 一 家 目 然 科学 杂志 《计算 机 应 用 
与 应 用 数学 》 上 发 表 ， 问 国内 计算 机 界 和 数学 界 详尽 地 介绍 了 数理 语言 
学 的 最 新 情况 ， 这 一 篇 文章 犹如 空谷 之 足音 ， 使 当时 被 文化 大 音 命 封 财 
了 世界 学 术 进展 的 中 国学 术 界 了 解 到 国外 信息 时 代 已 经 到 来 的 最 新 动 

态 。 我 在 这 篇 文章 中 兴奋 地 告诉 广大 读者 : “信息 时 代 的 到 来 ， 使 得 语 
言 学 、 数 学 和 计算 机 科学 结 下 了 不 解 之 缘 ， 语 言 研究 和 计算 机 技术 已 经 
到 了 非 结合 不 可 的 地 步 了 ! ” 























在 云南 边疆 的 中 学 教 物理 学 期 间 ， 我 还 有 机 会 阅读 了 一 些 物理 学 的 
经 典 闭 作 ， 例 如 ， 伽 利 略 的 《关于 两 个 世界 体系 的 对 话 》， 和 牛顿 的 《上 自 
然 哲学 之 数学 原理 》 等 。 这 些 经 典 著 作 给 了 我 很 多 启示。 








伽利略 认为 ， 人 们 正在 构建 的 理论 体系 是 确实 的 真理 ， 由 于 存在 过 
多 的 因素 和 各 种 各 样 的 事物 ， 现 象 序列 往往 是 对 于 真理 的 东 种 竹 曲 。 所 
以 ， 在 科学 研究 中 ， 最 有 意义 的 不 是 去 考虑 现象 ， 而 应 当 去 寻求 那些 看 
起 来 确实 能 够 给 予 人 们 深刻 见解 的 原则 。 伽 利 略 告 诚 人 们 ， 如 果 事 实 驱 
斥 理论 的 话 ， 那 么 ， 事 实 可 能 是 错误 的 。 伽 利 略 忽视 或 无 视 那 些 有 悖 于 
理论 的 事实 。 伽 利 略 举例 说 ， 人 们 看 到 每 天 太阳 从 东方 升 起 ， 从 西方 落 
下 ， 都 误 以 为 太阳 是 围绕 地 球 旋 转 的 ， 而 实际 上 却 是 地 球 围 经 太阳 旋 
转 。 因 此 ， 现 象 序列 往往 是 对 于 真理 的 某 种 焉 曲 ， 科 学 研究 应 当 揭 示 那 
些 隐藏 在 现象 序列 后 面 的 真理 ， 生 万 不 要 个 表面 的 现象 所 迷惑 。 











牛顿 认为 ， 在 他 那个 时 代 的 科学 水 平 下 世界 本 身 还 古 不 可 理解 
的 ， 科 学 研究 所 要 做 的 最 好 的 事情 就 是 努力 构建 可 以 被 理解 的 理论 ， 牛 
顿 关注 的 是 理论 的 可 理解 性 ， 而 不 是 世界 本 身 的 可 理解 性 ， 科 学 理论 不 
征 为 了 满足 常识 理解 而 构建 的 ， 常 识 和 直觉 不 足以 理解 科学 的 理论 。 牛 
顿 据 弃 那些 无 助 于 理论 构建 的 常识 和 直觉 。 








通过 阅读 这 些 博大 精深 的 物理 学 经 典 著 作 ， 我 认识 到 ， 在 语言 学 研 
究 中 ， 我 们 应 当 探 索 和 发 现 那 些 在 语言 事实 和 现象 后 面 掩藏 着 本 质 和 原 
则 ， 不 要 只 是 总 是 集 留 在 现象 的 观察 和 描写 上 ， 语 言 学 研究 的 目的 在 于 
通过 语言 的 现象 揭示 语言 的 本 质 。 在 这 样 的 思想 的 启示 之 下 ， 我 下 决心 
模仿 Shannon 研 究 英 语 字母 的 和 的 做 法 ， 通 过 汉字 频 度 的 手工 统计 来 探 
测 隐藏 在 字 频 的 表面 现象 之 后 掩藏 着 汉字 的 炉 值 (entropy) ， 也 就 是 汉 
字 中 包含 的 信息 量 。 从 此 ， 我 利用 业余 时 间 潜 心 研究 汉字 炉 值 的 测定 问 
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略 和 牛顿 的 科学 方法 不 谋 而 合 。 














为 了 进行 语言 文字 的 信息 处 理 ， 必 须知 道 文 字 的 信息 量 ， 因 此 ， 也 
束 必 须 测 定 文字 的 糯 。 这 是 信息 时 代 语 言 文 字 人 处 理应 该 研究 的 基础 性 问 
题 。 汉 字 的 “ 业 ” 是 汉字 所 含 信 息 量 大 小 的 数学 度量 ， 是 汉字 的 一 个 重要 
的 本 质 属性 ， 一 旦 进入 信息 是 时 代 ， 我 国 必 定 要 用 计算 机 来 处 理 汉 字 ， 
首先 就 会 遇 到 汉字 信息 量 的 问题 。 汉 字 业 的 研究 可 以 为 汉字 进入 信息 时 
代 做 好 理论 上 的 准备 。 











近 几 十 年 来 ， 国 外 学 者 已 陆续 测 出 一 些 拼 音 文 字 字 母 中 的 烂 ， 而 汉 
字数 量 太 大 ， 各 个 汉字 的 出 现 概 率 各 不 相同 ， 因 此 ， 要 计算 包含 在 一 个 





汉字 中 的 精 是 一 个 十 分 复杂 和 繁 难 的 问题 。 


AS WROD, FC ESRI ECAR HH EE, HP 
20 世 纪 70 年 代 我 们 还 没有 机 器 可 读 的 汉语 语料库 ， 哪 怕 小 规模 的 汉语 语 
料 库 也 没有 ， 我 是 一 个 中 学 物理 老师 ， 也 没有 计算 机 ， 我 只 得 根据 书面 
文本 进行 手工 查 频 ， 请 了 几 个 志同道合 的 朋友 ， 用 手工 帮助 我 进行 汉字 
频 度 的 调查 。 我 给 这 些 朋 友 每 个 人 发 了 一 箱 卡 片 ， 请 他 们 帮助 统计 在 选 
定 样 本 资料 中 的 汉字 出 现 的 频 度 ， 并 且 把 这 些 频 度 记录 在 卡片 上 。 在 朋 
友 们 的 帮助 下 ， 我 用 了 将 近 10 年 的 时 间 ， 对 数 百 万 字 的 现代 汉语 文本 
( 占 70%) 和 古代 汉语 文本 〈( 占 30%) 进行 手工 查 频 ， 从 小 到 大 地 逐步 
扩大 统计 的 规模 ， 建 立 了 6 个 不 同 容量 的 汉字 频 度 表 ， 最 后 根据 这 些 不 
FAIA MER, APY AMS NAB, APH SE. 
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的 科学 方法 论 原 则 : 通过 汉字 频 度 的 手工 统计 出 来 的 数据 来 揭示 隐藏 在 
这 些 数 据 后 面 的 汉字 的 信息 量 的 大 小 一 一 汉字 的 燃 值 。 




















为 了 给 汉字 信 的 测定 建立 一 个 坚实 的 理论 基础 ， 我 还 提出 了 “汉字 
容量 极限 定律 ”， 我 用 数学 方法 证 明 : 当 统 计 样 本 中 汉字 的 容量 不 大 
时 ， 包 含 在 一 个 汉字 中 的 业 将 随 着 汉字 容量 的 增加 而 增加 ， 当 统计 样本 
中 的 汉字 容量 达到 12 366 字 时 ， 包 含 在 一 个 汉字 中 的 灶 就 不 再 增加 了 ， 
这 意味 着 ， 在 测定 汉字 的 烂 的 时 候 ， 统 计 样 本 中 汉字 的 容量 是 有 极限 
的 。 这 个 极限 值 就 是 12 366%, HEH SPIRE, WU IS KINS EE 
不 会 增加 了 。 在 “汉字 容量 极限 定律 ”的 基础 上 ， 我 在 包含 12 370 个 不 同 
汉字 的 统计 样本 的 范围 内 ， 初 步 测 出 了 在 考虑 语言 符号 出 现 概 率 差 异 的 
情况 下 ， 包 含 在 一 个 汉字 中 的 米 为 9.65 比 特 。 由 此 得 出 结论 : 从 汉语 书 








面 语 总 体 来 考虑 ， 在 现代 汉语 和 古代 汉语 的 全 部 汉语 书面 语 中 ， 包 含 在 
一 个 汉字 中 的 烂 是 9.65 比 特 。 由 于 我 采用 的 是 手工 查 频 的 方法 ， 尽 管 工 
作 十 分 楷 重 ， 准 确 性 还 是 难以 得 到 保证 ， 我 一 直 认 为 ， 我 测定 出 的 汉字 
燃 值 只 是 一 种 初步 的 猜测 ， 还 需要 更 加 精 鹤 的 手段 来 进一步 检验 这 样 的 
jer 





20 世 纪 80 年 代 ， 北 京 航空 学 院 计算 机 系 刘 源 教授 使 用 计算 机 统计 汉 
字 的 频 度 ， 并 计算 出 汉字 的 粒 为 9.71 比 特 。 刘 源 教授 使 用 计算 机 计算 的 
结果 与 我 通过 手工 测定 的 结果 相差 不 大 ， 这 说 明 我 在 70 年 代 对 于 汉字 燃 
的 测定 是 十 分 认真 的 。 
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不 能 使 用 8 比特 的 单字 节 编 码 ， 而 要 使 用 16 比 特 的 双 字 市 编码 。 这 项 研 
完 为 汉字 信息 的 计算 机 处 理 提供 了 基本 的 数据 ， 对 于 汉字 编码 、 汉 字 改 
革 和 汉语 的 规范 化 都 有 一 定 的 指导 意义 。 





汉字 烂 值 的 测定 还 使 我 更 加 深入 地 理解 了 通过 表面 现象 揭示 隐藏 在 
现象 后 面 的 本 质 的 科学 研究 方法 。 这 些 都 是 我 认真 地 阅读 伽利略 和 牛顿 
的 物理 学 经 典 著 作 而 得 到 的 收获 。 


4， 研 制 世界 上 第 一 个 汉语 到 多 种 外 语 
的 机 器 翻译 系统 





粉碎 四 人 帮 之 后 ， 迎 来 了 科学 的 春天 。 高 等 学 校 开 始 招生 。 毛 泽 东 
主席 生前 对 于 大 学 招生 做 过 指示 :“ 大 学 还 是 要 办 的 ”， 但 接着 他 又 指 
示 :“ 我 这 里 主要 说 的 是 理工 科大 学 还 要 办 ”。 毛 泽 东 在 他 的 指示 中 没有 





说 文科 大 学 还 要 办 。 这 样 ， 大 学 招生 时 ， 首 先 恢复 的 是 理工 科大 学 招 
生 ， 而 文科 没有 招生 。 我 淘 望 着 早日 回 到 科学 研究 的 岗位 上 去 ， 因 此 决 
定 ， 既 然 文科 不 招生 ， 那 就 报考 理工 科 ， 于 是 ， 我 报考 了 中 国 科 学 技术 
大 学 研究 生 院 ， 妆 然 参加 理工 科大 学 的 入 学 考试 。1978 年 ， 我 通过 了 理 
科 的 入 学 考试 ， 考 上 了 中 国 科 学 技术 大 学 研究 生 院 ， 成 为 了 这 所 全 国 一 
流 的 理工 科大 学 的 研究 生 。 于 是 ， 我 在 痉 理 学 文 20 年 之 后 ， 又 反 过 来 径 
文学 理 ， 重 新 开始 了 理科 的 学 习 ， 从 云南 边疆 回 到 了 北京 。 


在 中 国 科学 技术 大 学 研究 生 院 学 习 期 间 ， 我 很 快 就 在 理工 科 的 杂志 
上 发 表 论 文 。1979 年 ，《 计 算 机 科学 》 杂 志 创 刊 ， 我 就 在 该 杂志 创刊 号 
上 发 表 了 《形式 语言 理论 》 的 长 篇 论文 ， 用 严格 的 数学 表达 方式 向 计算 
机 科学 界 说 明 数 理 语言 学 中 的 形式 化 方法 如 何 推动 了 当代 计算 机 科学 的 
发 展 ， 并 且 指 出 : 在 数理 语言 学 研究 中 发 展 起 来 的 形式 语言 理论 ， 事 实 
上 已 经 成 为 了 当代 计算 机 科学 不 可 缺少 的 一 块 重要 的 理论 基石 ， 计 算 机 
科学 绝 不 可 忽视 形式 语言 理论 。 许 多 人 认为 这 篇 文章 一 定 是 资深 的 计算 
机 科学 家 写 的 ， 后 来 ， 当 计算 机 界 的 一 些 专家 了 解 到 ， 这 篇 论文 的 作者 
竟然 是 文革 前 北京 大 学 中 文系 的 一 个 文科 研究 生 的 时 候 ， 感 到 非常 恢 
W. 











不 久 ， 我 被 中 国 科学 技术 大 学 研究 生 院 选送 到 法 国 格 勒 诺 布 尔 理科 
医科 大 学 应 用 数学 研究 所 口 (IMAG) 自动 翻译 中 心 (GETA) 学习 ， 
师 从 当时 国际 计算 语言 学 委员 会 主席 、 法 国 著 名 数学 家 沃 古 瓦 〈B. 
Vauquois) 教授 ， 专 门 研究 自动 翻译 和 数理 语言 学 问题 。 

















添 古 岂 教 授 是 国际 计算 语言 学 委员 会 的 创始 人 ， 是 当时 国际 计算 语 
言 学 的 领军 人 物 ， 他 领导 的 GETA 在 机 器 翻 译 的 理论 和 实践 上 都 做 出 了 
出 色 的 成 绩 ， 我 在 GETA 良 好 的 学 习 环 境 中 ， 可 以 了 解 到 机 器 翻译 发 展 
的 最 新 情况 ， 可 以 学 习 到 当代 机 器 翻 译 最 前 沿 的 技术 。 我 目 幼 就 襄 欢 数 





学 ， 而 添 古 瓦 教授 是 数学 家 ， 我 们 一 拍 即 合 ， 都 深 知 目 然 语 言 的 形式 理 
论 对 于 构建 机 器 翻译 系统 的 重要 性 。 从 此 ， 我 的 研究 重点 逐渐 由 数理 语 


言 学 转 到 了 计算 语言 学 (computational linguistics) 。 


在 法 国 留学 期 间 ， 我 的 主要 工作 是 进行 汉语 与 不 同 外 语 的 机 器 翻译 
研究 。 开 始 时 ， 我 使 用 的 自然 语言 形式 理论 是 齐 姆 斯 基 的 短语 结构 语法 
(phrase structure grammar) ， 我 试图 使 用 短语 结构 语法 来 进行 汉语 的 
自动 分 析 。 





早 在 1957 年 ， 我 就 接触 到 乔 姆 斯 基 的 形式 语言 理论 ， 对 于 天 姆 斯 基 
的 理论 是 有 深入 了 解 的 。 乔 姆 斯 基 根 据 形式 语法 的 原理 ， 提 出 了 短语 结 
构 语 法 来 作 目 然 语言 形式 描述 的 一 种 手段 ， 这 种 语法 在 上 自然 语言 处 理 中 
得 到 了 广泛 的 使 用 。 国 内 外 的 许多 机 顺 翻 译 系统 都 采用 乔 姆 斯 基 的 短语 
结构 语法 作为 系统 设计 的 基本 理论 依据 。 根 据 乔 姆 斯 基 的 短语 结构 语 
法 ， 表 示人 句子 结构 的 树 形 图 中 的 每 一 个 结 皮 只 有 一 个 相应 的 标记 ， 结 扣 
与 标记 之 间 的 这 种 关系 是 一 种 单 值 标记 函数 ， 会 出 现 大 量 的 监 义 问题 ， 
难于 区 分 句法 结构 相同 而 语义 结构 不 同 的 汉语 句子 ， 这 种 分 析 法 是 短语 
结构 语法 在 分 析 汉 语 时 一 个 致命 的 缺点 。 














当时 我 在 法 国 研制 开发 机 器 翻译 系统 的 实践 中 ， 残 更 加 有 共 体 地 认识 
到 短语 结构 语 Cmono-label function) 的 缺陷 。 这 种 单 值 标 记 函 数 表 示 的 
语言 特征 是 十 分 有 限 的 ， 因 而 在 机 器 翻译 中 进行 汉语 的 自动 分 析 时 会 显 
fir Xx adi. 





有 一 天 ， 添 古 瓦 教授 和 我 讨论 汉语 目 动 分 析 的 问题 。 我 坦率 地 回 沃 
古 瓦 教授 次 :“ 乔 姆 斯 基 的 短语 结构 语法 对 于 法 语 和 英语 的 分 析 可 能 没 
有 多 大 问题 ， 可 是 ， 用 这 种 语法 来 分 析 汉 语 ， 几 乎 寸步 难 行 。” 





沃 古 岂 教 授 用 好 奇 的 目光 看 者 我 ， 他 布 望 我 进一步 阐述 自己 的 看 
法 。 于 是 ， 我 举例 对 沃 古 瓦 教授 作 了 如 下 的 说 明 : 


FEDS PA DA dé a”, Sb ECKE P", (ADE Hx 
不 用 “被 ” 字 ; 汉语 中 还 可 以 说 “ 张 三 吃 了 ”， 实 际 上 是 “ 张 三 把 点 心 吃 
了 ”“ 张 三” 是 个 名 词 短语 NP (Noun Phrase) , “点 心 " 也 是 个 NP, “ 吃 
了 ”是 个 动词 短语 VP (Verb Phrase) ， 这 两 个 句子 的 规则 都 是 : 
S+NP+VP, KH, S (Sentence) 表示 句子 ， 它 们 的 层次 相同 ， 词 序 相 
同 ， 词 性 也 相同 ， 但 它们 却 有 截然 不 同 的 含义 ， 一 个 是 被 动 句 ， 一 个 是 
主动 句 。 我 们 怎么 来 解释 这 样 的 差异 呢 ? 如 果 我 们 使 用 短语 结构 语法 ， 
用 计算 机 来 分 析 这 两 个 不 同 的 句子 ， 计 算 机 最 后 做 出 来 的 肯定 是 一 样 的 
树 形 图 ， 它 们 的 差别 只 是 在 叶子 结 点 上 的 词 不 一 样 ， 整 个 树 形 图 的 上 层 
都 是 同样 的 SNP+VP， 这 样 在 结构 上 相同 的 句子 为 什么 会 有 不 同 的 语 
义 解 释 ， 从 而 产生 不 同 的 含义 ? 使 用 短语 结构 语法 显然 是 解释 不 了 的 ， 
而 中 文 里 到 处 都 是 这 样 的 句子 ， 因 为 中 文 里 的 被 动 关系 有 不 同 的 表示 方 
法 ， 有 时 主动 和 被 动 在 形式 上 没有 明显 的 区 别 ， 可 以 从 句子 的 上 下 文 和 
意念 上 来 加 以 区 分 。 在 这 种 进退 两 难 的 局 面 下 ， 唯 一 的 出 路 就 是 根据 汉 
语 语法 的 特点 来 改进 乔 姆 斯 基 的 短语 结构 语法 ， 设 法 使 用 一 种 新 的 方法 
来 描述 汉语 。 























沃 古 瓦 教授 耐心 地 听 完 了 我 的 说 明 ， 他 从 沙发 上 站 起 来 惊叹 地 
bi: “汉语 真是 一 种 langueterrible (法 语 : EREA) o Mii: WP 
语言 能 够 不 分 主动 和 被 动 ， 人 吃 了 和 被 人 号 了 怎么 能 是 一 样 ? 怎么 这 么 
EL? ” 

我 向 沃 古 瓦 教授 解释 道 : 其 实 中 国人 一 点 儿 也 不 感觉 到 乱 ， 我 们 中 
国人 在 说 话 时 是 分 辩 得 很 清楚 的 ， 因 为 我 们 中 国人 知道 ， 在 一 般 的 情况 
下 ， 人 是 不 能 被 吃 的 。 所 以 “小 王 吃 了 ”的 语义 不 能 是 “小 王 被 吃 了 ”， 而 





点 心 不 号 东西 ， 所 以 " 氮 必 号 了 了 ?必定 是 “ 氮 心 被 号 了 ”。 汉 语 是 靠 词 汇 的 
回 有 语义 来 解决 语法 问题 的 ， 但 是 对 于 你 们 法 国人 来 讲 ， 并 不 存在 这 样 
的 问题 。 所 以 ， 我 们 不 能 按照 法 语 的 思考 方法 来 处 理 这 个 汉语 的 问题 ， 
我 们 必须 男 尽 蹊 径 ! 


沃 古 岂 教 授 是 一 个 知识 广博 、 眼 界 开阔 的 学 者 ， 他 至 励 我 沿 厦 这 个 
思路 继续 探索 。 他 对 我 说 :“ 乔 姆 斯 基 的 短语 结构 语法 也 不 一 定 永 远 正 
确 嘛 ! ” 








在 我 告别 时 ， 沃 古 瓦 教授 兴奋 地 说 :“ 我 相信 ， 你 一 定 能 找 出 一 种 
汉语 自动 分 析 的 新 方法 。” 


这 次 和 沃 上 古 岂 教授 的 谈话 使 我 深刻 地 认识 到 ， 乔 姆 斯 基 的 短语 结构 
语法 在 汉语 目 动 分 析 时 确实 出 现 了 极 大 的 困难 。 这 种 困难 甚至 连 沃 百 瓦 
教授 这 样 世 界 第 一 流 的 计算 语言 学 家 也 承认 了 。 作 为 中 国 的 科学 工作 
者 ， 我 必须 想 出 一 种 新 的 办 法 ， 来 区 服 短语 结构 语法 的 缺点 。 不 然 ， 我 
现在 进行 的 汉语 自动 分 析 就 很 难 搞 下 去 了 。 


这 一 天 夜里 我 很 不 平静 ， 翻 来 履 去 总 在 思考 这 个 问题 。 第 二 天 清 
早 ， 我 走 到 沃 上 古 拟 教授 的 办 公 室 ， 明 确 地 回 沃 古 瓦 教授 提出 : 我 们 正面 
临 一 个 新 的 挑战 ， 我 们 必须 要 思考 一 种 新 的 语法 理论 来 解决 这 个 问题 。 
琴 古 瓦 教授 完全 同意 我 的 意见 ， 他 进一步 或 励 我 探索 新 的 理论 和 方法 来 
解决 汉语 上 自动 分 析 中 出 现 的 这 个 困难 问题 。 


在 沃 十 瓦 教授 的 鼓励 下 ， 我 对 这 个 问题 反复 进行 了 思考 。 我 观察 
到 :“ 小 王 吃 了 "和 "点 心 吃 了 "这 两 个 貌似 相同 的 句子 在 词汇 的 语义 上 有 
很 大 的 不 同 ，“ 小 王 " 在 语义 上 是 一 个 < 人 ”， 在 一 般 情况 下 ,，“ 人 "是 " 吃 
了 ”这 个 行为 的 主动 者 (agent) ， 而 "点心 "在 语义 上 是 "食品 *， 在 一 般 





情况 下 , “食品 ”是 “ 吃 了 ”这 个 行为 的 被 动 者 (patient) ， 是 “ 吃 了 ”的 对 
象 。 在 短语 结构 规则 $ -NP+VP 中 ， 如 果 我 们 不 要 把 NP 看 成 一 个 不 可 分 
割 的 单元 ， 而 把 NP 进 一 步 加 以 分 割 ， 使 用 知 干 个 特征 来 代 蔡 NP 这 个 单 
一 的 特征 。 例 如 ， 在 “小 王 吃 了 ”中 ， 我 们 把 NP 分 解 为 “NP| 人 ”两 个 特 
征 ， 在 “点 心 吃 了 ”中 ， 我 们 把 NP 分 解 为 “NP| 食 品 ” 两 个 特征 ， 这 样 一 
来 ， 就 有 可 能 在 计算 上 把 它们 分 解 开 来 了 。 在 计算 机 处 理 语言 时 ， 特 征 
也 就 是 “标记 ”， 因此， 我 提出 ， 如 果 我 们 使 用 “多 标记 ”(multiple 
label) 来 代 蔡 短语 结构 语法 中 的 “ 单 标 记 ”(mono label) , WEA IBEX 
大 地 提高 短语 结构 语法 描述 语言 的 能 力 ， 我 们 就 可 以 使 用 改进 后 的 这 种 
语法 来 描述 汉语 ， 实 现 汉 语 的 自动 分 析 。 这 就 是 我 关于 “多 标记 ”的 设 
想 。 











我 对 于 短语 结构 语法 的 另 一 个 改进 是 使 用 多 又 树 代替 短语 结构 语法 
的 二 又 树 。 乔 姆 斯 基 曾经 提出 乔 姆 斯 基 范 式 ， 他 认为 自然 语言 的 结构 具 
有 二 分 的 特性 ， 因 此 他 主张 在 自然 语言 处 理 中 使 用 “二 又 树 ”(binary- 
tree) 。 我 认为 ， 在 汉语 中 存在 着 “ 兼 语 式 ”和 “和 连 动 式 ” 等 特殊 句 式 ， 它 
们 都 不 具备 二 分 的 特性 ， 因 此 ， 我 主张 使 用 "多 又 树 ” 来 代替 “二 又 树 ”， 
从 而 提高 短语 结构 语法 描述 汉语 的 能 力 。 例 如 ,“ 请 小 王 吃饭 ?是 一 个 兼 
语 式 的 句子 ， 其 中 的 “小 王 ” 做 前 一 个 动词 “请 ”的 宾语 ， 又 做 后 一 个 动 
词 “吃饭 ”的 主语 ， 在 计算 机 处 理 时 ， 完 竟 是 分 析 为 “请 /小 王 吃 饭 ”， 还 
是 “请 小 王 /吃饭 ”， 我 们 会 感到 举 棋 不 定 ， 处 于 进退 维 谷 的 境地 ， 如 果 
勉强 分 析 ， 只 会 得 到 一 棵 交叉 的 分 析 树 ， 违 反 了 句法 树 的 * 非 交 特 性 ”。 
如 果 我 们 采取 三 分 ， 把 这 个 句子 分 析 为 “请 /小 王 /吃饭 ”， 可 以 避免 分 析 
树 的 交叉 ， 得 到 唯一 的 分 析 结 果 。 




















经 过 在 计算 机 上 编写 程序 进行 潜心 的 钻研 和 反复 的 试验 ， 我 提出 
了 “多 又 多 标记 树 模 型 ”(Multiple-labeled and Multiple-branched Tree 








Model， 简 称 MMT 模 型 ) ， 在 MMT 模 型 中 ， 我 采用 多 值 标 记 函 数 
(multiple-label function) 来 代 蔡 短语 结构 语法 的 单 值 标 记 函 数 Cmono- 
label function) ， 使 得 树 形 图 中 的 一 个 结 点 ， 不 再 仅仅 对 应 于 一 个 标 
记 ， 而 是 对 应 于 知 干 个 标记 ， 我 还 使 用 多 又 树 来 代替 二 又 树 ， 这 样 便 大 
大 地 提高 了 树 形 图 的 标记 能 力 ， 使 得 树 形 图 的 各 个 结 点 上 ， 都 能 记录 足 
够 多 的 语法 语义 信息 ， 把 句子 中 所 缠 含 的 丰富 多 采 的 信息 充分 地 表示 出 
来 ， 这 种 多 值 标记 函数 的 理论 ， 从 根本 上 元 服 了 春 姆 斯 基 的 短语 结构 语 
法 在 摘 述 自然 语言 时 的 严重 缺点 ， 提 高 了 其 有 限 的 分 析 能 力 ， 限 制 了 其 
过 强 的 生成 能 力 。 显 而 易 见 ，MMT 模 型 是 对 乔 姆 斯 基 短 语 结构 语法 的 
一 个 带 有 实质 意义 的 重要 改进 ， 这 个 模型 提出 后 ， 立 即 引 起 了 国际 语言 
学 界 的 高 度 重 视 ， 在 1982 年 于 布拉格 召开 的 国际 计算 语言 学 会 议 
CCOLING'82) 上 ， 在 1983 年 于 北京 召开 的 国际 中 文 信息 处 理会 议 
(1CCIP'83) 上 ， 在 1984 年 于 香港 召开 的 东南 亚 电脑 会 议 
(SEARCC'84) 上 ， 我 都 介绍 了 MMT 模 型 。 沃 古 瓦 教授 在 国际 计算 语 
言 学 会 议 COLING'82 的 大 会 发 言 中 ， 也 满腔 热情 地 赞扬 了 我 的 研究 工 
TE. 





























就 在 我 提出 MMT 模 型 的 同时 ， 国 外 一 些 计算 语言 学 家 也 看 到 了 短 
语 结构 语法 的 局 限 性 ， 分 别提 出 了 各 种 手段 来 改进 它 。 例 如 1983 年 卡 普 
= (RM. Kaplan) 和 布 列 斯 南 (J.Bresnan) 提出 的 “词汇 功能 语法 ”、 
19834E. JOU (Martin Kay) 提出 的 “功能 合 一 语法 ”、1985 年 新 效 达 
(G.Gazdar) 等 提出 的 “广义 短语 结构 语法 ”、1985 年 珀 拉 德 
(C.Pollard) 提出 的 “中 心 语 驱 动 的 短语 结构 语法 ”等 ， 都 采用 了 “复杂 特 
征 ”(complex features) 来 描述 自然 语言 ， 他 们 所 谓 的 “复杂 特征 ?实际 上 
也 就 是 我 提出 的 “多 值 标记 ”(multiple lablels) ， 名 异 而 实 同 。 所 以 ， 我 
当时 提出 的 MMTI 模 型 ， 是 全 世界 计算 语言 学 者 对 乔 姆 斯 基 的 短语 结构 
语法 进行 改进 的 一 个 重要 方面 和 不 可 分 割 的 组 成 部 分 ，MMT 模 型 是 20 














世纪 80 年 代 较 早 提出 的 一 个 旨 在 改进 短语 结构 语法 的 形式 化 模型 ， 当 时 
我 国学 者 在 这 方面 的 研究 在 国际 上 是 处 于 前 治 地 位 的 。 





1984 年 答 主 阿姆斯特丹 北 和 荷兰 出 版 社 出 版 的 多 吞 专 普 《计算 机 科学 
基础 研究 》 第 9 卷 《 上 自然 语言 处 理 的 计算 机 模型 》 一 书 ( 由 意大利 米兰 
大 学 主编 ) 中 ， 曾 详细 介绍 了 MMT 模 型 ， 并 评论 说 :“ 冯 氏 关 于 独立 分 
析 一 独立 生成 的 主张 ， 关 于 尽 可 能 地 从 源 语言 分 析 中 获取 多 方面 信息 的 
主张 ， 是 当前 自然 语言 处 理 研究 中 的 一 个 重要 进展 。” 











我 还 结合 汉语 的 特点 需要 ， 研 究 了 采用 MMT 模 型 来 解决 汉语 目 动 
分 析 的 各 种 问题 。 我 认为 ， 在 汉语 的 上 自动 分 析 中 ， 采 用 “多 值 标记 ”的 必 
要 性 更 加 明显 。 这 是 因为 汉语 的 句子 不 能 只 用 词类 或 词组 类 型 等 简单 特 
征 来 描述 ， 汉 语句 子 各 个 成 分 的 词类 、 词 组 类 型 、 句 法 功能 、 语 义 天 
系 、 逻 辑 关 系 之 间 ， 和 存在 着 极为 错综复杂 的 关系 ， 如 果 只 采用 简单 特 
征 ， 就 无 法 区 分 各 种 歧义 现象 ， 达 不 到 汉语 目 动 处 理 的 目的 。 有 共 体 地 
说 ， 这 是 由 于 : 1. 汉语 句子 中 的 词组 类 型 〈 或 词类 ) 与 句法 功能 之 间 不 
存在 简单 的 一 一 对 应 关系 ;2. 汉语 句子 中 词组 类 型 〈 或 词类 ) 和 句法 功 
能 相同 的 成 分 ， 它 们 与 句子 中 其 它 成 分 的 语义 天 系 还 可 能 不 同 ， 句 法 功 
能 和 语义 关系 之 间 也 不 是 简单 地 一 一 对 应 的 ，3. 汉语 中 单词 所 固有 的 语 
法 特征 和 语义 特征 ， 对 于 判别 词组 结构 的 性 质 ， 往 往 有 很 大 的 参考 价 
值 ， 除 了 词组 类 型 这 样 的 简单 特征 之 外 ， 再 加 上 单词 回 有 的 语法 特征 和 
语义 特征 ， 采 用 多 值 标 记 来 描述 ， 残 可 以 判断 词组 结构 的 性 质 。 























我 还 提出 了 用 于 多 值 标 记 的 汉语 “特征 一 值 ? 系 统 ， 特 征 可 分 为 静态 
特征 (static feature) 和 动态 特征 (dynamic feature) WK. HF, pf 
态 特 征 有 : 词类 特征 、 单 词 的 回 有 语义 特征 和 它 的 值 、 词 的 固有 语法 特 
征 和 它 的 值 ， 动 态 特征 有 : 词组 类 型 特征 和 它 的 值 、 句 法 功能 特征 、 语 
义 关 系 特征 、 逻 辑 关 系 特征 。 在 自动 句法 语义 分 析 中 ， 静 态 特 征 是 计算 


机 进行 运算 的 基础 ， 计 算 机 依赖 于 这 些 预先 在 词典 中 给 出 的 静态 特征 ， 
通过 有 穷 步 又 的 运算 ， 逐 渐 计 算出 各 种 动态 特征 ， 从 而 逐步 弄 清楚 汉语 
句子 中 各 个 语言 成 分 之 间 的 关系 ， 达 到 人 句法 语义 分 析 的 目的 。 这 就 是 我 
的 “ 双 态 理论 ”(bi-states theory) 。 


我 在 法 国 留学 期 间 ， 了 解 到 法 国语 言 学 家 泰 尼 埃 CL. Tesniere) 的 
从 属 关 系 语法 和 语法 “ 价 ” 的 概念 ， 我 用 这 种 语法 来 研究 汉 外 机 器 翻译 问 
题 ， 首 次 把 “ 价 ”(valence) 的 概念 引入 我 国 的 机 器 翻译 研究 中 ， 我 把 动 
词 和 形容 词 的 行动 元 Cactant) 分 为 主体 者 、 对 象 者 、 受 益 者 三 个 ， 把 
状态 元 Ccirconstant) 分 为 时 刻 、 时 段 、 时 间 起 点 、 时 间 终 点 、 空 间 
点 、 空 间 段 、 空 间 起 点 、 空 间 终 点 、 初 态 、 末 态 、 原 因 、 结 果 、 目 的 、 
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述 、 附 加 、 修 饰 等 27 个 ， 以 此 来 建立 多 语言 的 自动 句法 分 析 系 统 ， 对 于 
一 些 表 示 观 念 、 感 情 的 名 词 ， 也 分 别 给 出 了 它们 的 价 。 我 还 把 从 属 关 系 
语法 和 短语 结构 语法 结合 起 来 ， 在 表示 结构 关系 的 多 又 多 标记 树 形 图 
中 ， 明 确 地 指出 中 心 语 的 位 置 ， 并 用 核心 GOV) 、 枢 轴 (PIVOT) 等 
结 点 来 表示 中 心 词 。 这 是 我 国学 者 最 早 利用 从 属 关 系 语法 和 配 价 语法 来 
进行 自然 语言 计算 机 处 理 的 答 试 。 























我 根据 机 器 翻译 的 实践 ， 提 出 了 表示 从 属 关 系 语 法 的 从 属 树 
(Dependence Tree) 应 该 满足 如 下 5 个 条 件 : 1. 单纯 结 点 条 件 : 从 属 树 
中 ， 只 有 终极 结 点 ， 没 有 非 终极 结 点 ， 从 属 树 中 的 所 有 结 点 所 代表 的 都 
是 句子 中 实际 出 现 的 具体 的 单词 ，2. 单一 父 结 点 条 件 : 在 从 属 树 中 ， 除 
了 根 结 点 没有 父 结 点 之 外 ， 所 有 的 结 点 都 只 有 一 个 父 结 点 ; 3. 独 根 结 点 
AKTE: 一 个 从 属 树 只 能 有 一 个 根 结 点 ， 这 个 根 结 点 ， 就 是 从 属 树 中 唯一 
没有 父 结 点 的 结 点 ， 这 个 根 结 点 文 配 着 其 他 的 所 有 的 结 点 ; 4. ” 非 交 条 
TE: 从 属 树 中 的 树枝 不 能 彼此 相交 ; 5. ERRI: 从 属 树 中 的 结 点 之 











间 ， 从 上 到 下 的 文 配 关系 和 从 左 到 右 的 前 于 关系 之 间 是 互相 排斥 的 ， 如 
果 两 个 结 点 之 间 存 在 着 文 配 关系 ， 它 们 之 间 就 不 能 存在 前 于 关系 。 我 提 
出 的 这 5 个 条 件 比 1970 年 美国 计算 语言 学 家 罗 宾 孙 (J. Robinson) 提出 
的 从 属 关 系 语法 的 4 条 公理 更 加 直观 ， 更 加 便于 在 机 器 翻译 中 使 用 。 








我 在 法 国 研究 的 另 一 个 问题 是 生成 语法 的 公理 化 方法 。 我 从 公理 化 
方法 的 角度 来 研究 乔 姆 斯 基 的 形式 文法 ， 把 乔 姆 斯 基 的 形式 文法 同 数学 
中 的 半 图 厄 系统 (semi-Thue system) 相 比 较 ， 指 出 了 乔 姆 斯 基 的 形式 
文法 ， 实 际 上 是 数学 中 的 公理 系统 理论 在 语言 分 析 中 的 一 种 应 用 ， 语 言 
就 是 由 文法 这 一 公理 系统 从 初始 符 写 出 发 推导 出 的 无 限 句 子 的 集合 ; XC 
法 的 规则 是 有 限 的 ， 文 法 中 的 终极 符号 和 非 终 极 符号 的 数目 也 是 有 限 
的 ， 可 是 ， 由 于 语言 符号 上 共有 递归 性 ， 文 法 这 一 公理 系统 孢 能 够 根据 有 
限 的 符号 ， 通 过 有 限 的 重 写 规则 ， 递 归 地 推导 出 无 限 的 句子 来 。 这 样 的 
研究 ， 从 数学 的 基础 理论 方面 揭示 了 形式 文法 的 实质 。 











根据 MMT 模 型 ， 我 于 1981 年 完成 了 汉 一 法 / 英 / 日 / 俄 / 德 多 语言 机 器 
翻译 试验 ， 建 立 了 FAJRA 系 统 (FAJRA 是 法 语 、 英 语 、 日 语 、 俄 语 、 德 
语 的 法 文 首 字 母 缩 写 ) 。 在 IBM-4341 大 型 计算 机 上 ， 把 二 十 多 篇 汉语 
的 文章 自动 地 翻译 成 英文 、 法 文 、 日 文 、 俄 文 、 德 文 。 这 是 世界 上 第 一 
个 汉语 到 多 种 外 语 的 机 器 翻译 系统 ， 开 创 了 多 语言 机 器 翻译 系统 之 先 
河 。 


我 的 研究 从 理论 和 实践 上 都 改进 了 短语 络 构 语法 ， 受 到 了 导师 沃 古 
瓦 教授 的 赞 黄 。 我 总 着 想 把 这 些 成 果 应 用 到 中 国 的 科技 信息 文献 的 大 规 
模 翻 译 方面 ， 建 立 一 个 实用 的 机 需 翻 译 系统 ， 因 此 ， 实 验 报 告 一 写 完 ， 
我 就 号 上 告别 沃 古 所 教授 ， 离 开 法 国 回 到 了 祖国 。 





并 记 做 文理 兼 通 的 语言 学 家 





HAJER, 3X AB SUIS] SE — TESE-TR LE BUG AS A M HEX 
王 力 先 生 ， 同 王 力 先 生 汇 报 我 在 法 国学 习 的 收获 。 早 年 在 北京 大 学 中 文 
系 开始 研究 数理 语言 学 的 时 候 ， 王 力 移 生 惑 文 持 过 我 的 研究 ， 在 北京 大 
学 求学 期 间 ， 我 曾经 认真 地 听 过 王 力 先 生 讲 授 的 《古代 汉语 》《 汉 语 
史 》《 中 国语 言 学 史 》《 清 代 主 音 学 》 等 课程 ， 这 些 读 程 ， 为 我 后 来 的 
计算 语言 学 研究 呐 定 了 坚实 的 基础 ， 我 永远 筷 不 了 恩师 王 力 先生 。 

















1982 年 春天 ， 我 和 老 同学 吴 坤 定 〈 现 为 北京 出 版 社 编审 ) 一 起 到 北 
京 大 学 燕 南 园 去 看 望 王 力 先 生 。 一 进门 ， 先 生 就 高 兴 地 请 我 们 坐 下 。 先 
生 对 我 说 :“ 听 说 你 到 法 国之 后 已 经 改行 学 习 自 然 科 学 了 ， 现 在 ， 你 有 
了 很 好 的 数理 化 基础 ， 因 此 也 就 有 了 科学 的 头脑 。 这 些 都 是 很 宝贵 的 财 
富 ， 在 语言 学 研究 中 随时 用 得 着 。” 我 回 先生 汇报 了 自己 在 法 国 研究 多 
语言 机 器 翻译 的 收获 。 先 生 细 心地 听 着 ， 他 对 我 说 : “我 前 年 在 武汉 开 
的 中 国语 言 学 会 成 立 大 会 上 曾经 说 ， 我 一 辈子 吃亏 就 吃亏 在 我 不 懂 数 理 
化 。 现 在 你 懂得 数理 化 ， 就 不 会 像 我 这 样 吃亏 了 ， 我 相信 你 今后 一 定 会 
做 出 更 好 的 成 绩 。” 接 着 ， 先 生 义 说 “20 多 年 前 我 曾经 对 你 说 过 ， 我 希 

望 你 学 习 赵 元 任 先生 。 当 然 ， 这 是 很 难 的 。 赵 元 任 先 生 有 哲学 家 、 物 理 
学 家 、 数 学 家 、 文 学 家 、 音 乐 家 做 底子 ， 最 后 才 成 为 世界 著名 的 语言 学 
家 的 。 我 一 辈子 都 想 学 他 ， 但 是 ， 我 的 数理 化 基础 差 ， 没有 学 好 。 你 现 
在 到 法 国学 习 了 自然 科学 ， 已 经 具备 学 习 赵 元 任 先 生 的 条 件 了 ， 我 再 一 
次 提醒 你 ， 你 要 向 赵 元 任 先 生 学 习 ， 而 且 一 定 要 学 得 比 我 好 *。 先 生 这 
些 语重心长 的 话 ， 极 大 地 鼓励 了 我 ， 我 决心 按照 先生 的 教导 ， 把 数理 化 
的 知识 和 语言 学 的 知识 结合 起 来 ， 做 一 个 信息 时 代 的 文理 兼 通 的 语言 学 
家 。 






































从 法 国 回国 之 后 ， 我 在 中 国 科技 信息 研究 所 计算 中 心 担任 机 器 翻译 
研究 组 的 组 长 ， 在 王 力 先 生 的 鼓励 之 下 ， 我 利用 当时 北京 遥感 技术 研究 
所 的 IBM-4361 计 算 机 ， 于 1985 年 进行 了 德 一 汉 机 器 翻译 试验 和 法 - 汉 机 
器 翻译 试验 ， 建 立 了 GCAT 德 一 汉 机 器 翻译 系统 和 FCAT 法 - 汉 机 器 翻译 
系统 ， 检 验 了 MMT 模 型 生成 汉语 的 能 力 ， 试 验 结果 良好 。 可 惜 当 时 由 
于 国内 的 科研 资金 缺乏 ， 不 能 提供 足够 的 财力 和 人 力 来 开展 更 大 规模 的 
实验 ， 我 要 建立 实用 性 机 器 翻译 系统 的 愿望 没有 马上 实现 。 


1982 年 秋天 ， 我 应 北京 大 学 的 邀请 ， 在 北京 大 学 中 文系 汉语 专业 开 
设 了 “语言 学 中 的 数学 问题 "的 选修 课 。 这 是 国内 首次 在 高 等 学 校 全 面 

地 、 系 统 地 讲述 数理 语言 学 的 课程 ， 受 到 学 生 们 的 欢迎 。 北 京 大 学 前 任 
校长 、 著 名 数学 家 丁 石 孙 教 授 在 他 的 专著 《数学 与 教育 》 一 书 中 ， 对 这 
门 课程 作 了 如 下 的 评价 :“1982 年 ， 北 京 大 学 中 文系 开设 了 《语言 学 中 
的 数学 问题 》， 这 是 给 汉语 专业 学 生 开 的 选修 课程 ， 许 多 同学 对 这 门 学 
科 产生 了 很 大 的 兴趣 ， 经 过 一 个 学 期 的 学 习 ， 同 学 们 初步 认识 了 现代 数 
学 的 发 展 给 语言 学 注入 了 生机 ， 觉 得 获 益 菲 浅 ， 对 语言 学 这 门 古老 的 学 
科 分 支 的 发 展 充满 了 信心 ， 而 且 这 一 举动 冲击 了 相当 多 的 人 的 旧 概 念 ， 
使 闭塞 的 中 国学 术 界 认识 到 ， 即 使 在 人 文科 学 教育 中 ， 数 学 也 在 逐渐 起 
fep, n 


























在 北京 大 学 讲稿 的 基础 之 上 ， 我 写 出 了 我 国 第 一 部 数理 语言 学 的 专 
著 ， 书 名 就 叫做 《数理 语言 学 》， 于 1985 年 8 月 由 上 海 的 知识 出 版 社 出 
版 。 接 痢 ， 我 又 出 版 了 《上 自动 翻译 》 的 专 背 ， 深 入 地 探讨 目 然 语 言 机 器 
翻译 的 理论 和 实践 问题 。 这 两 本 专著 的 出 版 ， 受 到 了 我 国 计 算 语言 学 界 
的 欢迎 。 不 少 出 国学 习 计 算 语 言 学 的 留学 生 ， 出 国 时 都 带 着 这 两 本 书 ， 
作为 入 门 的 癌 导 。 


6. 研制 世 春 上 第 一 个 中 文 术语 数据 厅 





1985 年 ， 原 文字 改革 委员 会 改名 为 国家 语言 文字 工作 委员 会 ， 需 要 
计算 语言 学 方面 的 人 才 ， 我 调 入 了 国家 语言 文字 工作 委员 会 语言 文字 应 
用 研究 所 担任 计算 语言 学 研究 室 主 任 ， 得 以 专门 从 事 计算 语言 学 的 研究 
工作 ， 这 是 我 1978 年 弃 文 学 理 之 后 又 一 次 弃 理 从 文 ， 我 又 重新 回 到 了 语 
言 学 的 怀抱 。 与 此 同时 ， 由 于 工作 的 需要 ， 我 还 在 中 国 科 学 院 软件 研究 
所 担任 兼职 研究 员 的 工作 。 




















根据 中 德 科技 合作 协定 ， 我 受 中国 科 学 院 软 件 研究 所 的 派 遗 ， 于 
1986 年 侈 1988 年 到 德国 夫 下 不 费 研 究 院 新 信息 技术 与 通讯 系统 研究 所 
(Fraunhofer Gesellschaft， 简 称 FhG) 担任 客座 研究 员 ， 从 事 术 语 数 据 
库 的 开发 。 





术语 是 人 类 科学 技术 知识 在 自然 语言 中 的 结晶 。 术 语 数 据 库 是 在 计 
算 机 上 建立 的 人 类 科学 技术 的 知识 库 ， 这 项 研究 属于 知识 工程 的 研究 ， 
具有 重要 的 意义 。 








当时 世界 上 还 没有 很 好 的 汉字 输入 输出 软件 ， 我 国 自己 开发 的 
CCDOS 还 很 不 成 熟 ， 我 克服 了 重重 困难 ， 在 FhG 使 用 UNIX 操 作 系 统 和 
INGRES 软 件 ， 建 立 了 数据 处 理 领 域 的 中 文 术语 数据 库 GLOT-C， 并 且 
把 这 个 数据 库 与 FhG 的 其 他 语言 的 术语 数据 库 相 连接 ， 可 以 快速 地 进行 
多 语言 术语 的 查询 和 检索 ， 而 且 还 可 以 处 理 简 繁体 的 汉字 。 这 是 世界 上 
第 一 个 中 文 术语 数据 库 ， 具 有 开创 作用 。 














在 FhG 研 究 术 语 数 据 库 的 过 程 中 ， 我 还 接触 到 多 种 语言 的 大 量 术 
语 ， 我 惊异 地 发 现 ， 几 平 在 每 一 种 语言 中 ， 词 组 型 术语 的 数量 部 大 大 地 


超过 了 单词 型 术语 的 数量 。 根 据 多 年 前 我 学 习 过 的 伽利略 和 牛顿 的 科学 
方法 论 ， 我 试图 揭示 出 语言 事实 后 面 隐藏 的 本 质 ， 从 理论 上 对 这 样 的 语 
言 事实 进行 解释 。 











为 此 ， 我 把 数理 语言 学 的 理论 应 用 到 术语 数据 库 的 研究 中 ， 提 出 
了 “术语 形成 的 经 济 律 ”。 





我 根据 大 量 的 实验 数据 证 明了 : 在 一 个 术语 系统 中 ， 术 语系 统 的 经 
济 指数 与 术语 平均 长 度 的 乘积 恰恰 等 于 单词 的 术语 构成 频 度 之 值 ， 并 提 
出 了 “FEL 公 式 " 来 描述 这 个 定律 。 根 据 FEL 公 式 可 知 ， 在 一 个 术语 系统 
中 ， 提 高 术语 系统 经 济 指数 的 最 好 方法 是 在 尽量 不 过 大 地 改变 术语 平均 
长 度 的 前 提 下 ， 增 加 单词 的 术语 构成 频 度 。 这 样 ， 在 术语 形成 的 过 程 

中 ， 将 会 产生 大 量 的 词组 型 术语 ， 使 得 词组 型 术语 的 数量 大 大 地 超过 单 
词 型 术语 的 数量 ， 而 成 为 术语 系统 中 的 大 多 数 。FEL 公 式 从 数理 语言 学 
的 角度 ， 正 确 地 解释 了 为 什么 术语 系统 中 词组 型 术语 的 数目 总 是 远 远大 
于 单词 型 术语 的 数目 的 数学 机 理 ， 它 反映 了 语言 中 的 省 力 原 则 和 经 济 原 
则 ， 这 是 我 国学 者 对 于 数理 语言 学 中 著名 的 齐 夫 定律 (Zipfs law) 的 新 
发 展 ， 并 从 术语 的 角度 说 明了 语言 中 的 省 力 原则 和 经 济 原则 是 具有 普遍 
意义 的 原则 外 。 

















“术语 形成 的 经 济 律 ”提出 之 后 ， 国 内 外 的 术语 学 研究 者 根据 术语 数 
据 库 的 事实 进行 检验 ， 检 验证 明 ， 在 各 种 语言 的 术语 数据 库 中 ， 词 组 型 
术语 的 数目 都 大 于 单词 型 术语 的 数目 。 因 此 , “术语 形成 的 经 济 律 ?是 适 
应 于 各 种 语言 的 一 条 普遍 规律 ， 是 现代 术语 学 的 一 条 重要 的 基本 定律 。 








语言 是 现实 的 编码 体系 ， 术 语 形 成 的 经 济 律 反映 了 用 词 作 为 语言 材 
料 进行 单词 型 术语 和 词组 型 术语 的 编码 时 的 经 济 律 ， 这 一 经 济 律 也 可 适 
用 于 语言 编码 的 其 他 领域 。 汉 语 中 在 用 单字 组 成 多 字 词 的 时 候 ， 有 限 数 


目的 单字 组 成 了 为 数 可 观 的 多 字 词 ， 多 字 词 以 增加 上 自身 的 长 度 为 代价 来 
保持 汉语 中 原 有 单字 的 个 数 或 者 尽量 不 增加 原 有 单字 的 个 数 ， 体 现 了 组 
字 成 词 这 个 编码 过 程 的 经 济 律 。 多 字 词 也 就 是 双 首 词 或 多 首 词 ， 著 名 语 
言 学 家 吕 相 湘 先生 指出 ,，“ 北 方 话 的 语 首 面貌 在 最 近 几 百年 里 没有 多 大 
变化 ， 可 是 双 音 词 的 增加 以 近 百 年 为 其 ， 而 且 大 部 分 是 与 经 济 、 政 治 和 
文化 生活 有 关 的 所 谓 ' 新 名 词 '。 可 见 同音 词 在 现代 主要 是 起 消极 作用 ， 

就 是 说 ， 要 创造 新 的 单 音 词 是 极其 困难 的 了 。?” 吕 叔 湘 先 生 在 这 里 一 方 
面 指 出 了 要 创造 新 的 单 音 词 〈“ 即 单字 ) 极其 困难 ， 一 方面 又 指出 了 双 音 
词 “ 即 双 字 词 ) 的 大 量 增 加 的 现象 ， 这 正 是 组 字 成 词 的 经 济 律 的 生动 体 
现 。 














对 汉字 结构 及 其 构成 成 分 的 统计 与 分 析 表 明 ， 在 《 群 海 》 (1979F 
版 ) 所 收 的 16 295 个 字 和 GB2312-80 国 家 标准 《信息 交换 用 汉字 编码 字 
符 集 :基本 集 》 收 入 而 《 群 海 》 未 收 的 43 个 字 中 ， 简 化 字 和 被 简化 的 繁 
体 字 《包括 被 淘汰 的 异体 字 和 计量 用 字 ) 以 及 未 简化 的 汉字 共有 16 339 
个 ， 它 们 是 由 675 个 不 能 再 分 解 的 末 级 部 件 构成 的 ， 简 化 字 和 未 简化 的 
汉字 《不 包括 被 简化 的 繁体 字 、 被 淘汰 的 异体 字 和 计量 用 字 ) 共 11 837 
个 ， 它 们 是 由 648 个 不 能 再 分 解 的 末 级 部 件 构成 的 。 由 少量 的 部 件 构 成 
大 量 的 汉字 ， 体 现 了 部 件 构 成 汉字 这 一 编码 过 程 的 经 济 律 。 

















所 以 ， 术 语 形成 经 济 律 实际 上 乃 是 “语言 编码 的 经 济 律 "”， 这 是 语言 
学 中 的 一 个 普 吉 规律 ， 它 文 配 大 语言 编码 的 所 有 过 程 。 











在 研究 FEL 公 式 的 同时 ， 我 还 提出 了 “生词 增幅 递减 律 ”， 我 指出 ， 
在 一 个 术语 系统 中 ， 每 个 单词 的 绝对 频 度 是 不 同 的 ， 经 常 使 用 的 单词 是 
高 频 词 ， 不 经 常 使 用 的 单词 是 低频 词 ， 随 着 术语 条 目的 增加 ， 蜗 频 词 的 
数目 也 相应 地 增加 ， 而 生词 出 现 的 可 能 性 越 来 越 小 ， 这 时 ， 尺 管 术语 的 
条 数 还 继续 增加 ， 生 词 总 数 增加 的 速率 却 越 来 越 慢 ， 而 高 频 词 则 反复 地 


























出 现 ， 生 词 的 增幅 有 递减 的 趋势 。 这 个 “生词 增幅 递减 律 ?不 仅 庆 用 于 术 
语系 统 ， 也 适用 于 阅读 书面 文本 的 过 程 ， 人 们 在 阅读 一 种 用 目 己 不 悉 
的 语言 写 的 文本 时 ， 开 始 总 有 大 量 不 认识 的 生词 ， 随 着 阅读 数量 的 增 
加 ， 生 词 增加 的 幅度 会 逐渐 减少 ， 如 果 阅 读者 能 够 掌握 好 已 经 阅读 过 的 
生词 ， 阅 读 将 会 变 得 越 来 越 容 易 。 





我 还 与 上 海 交 通 大 学 博士 生 李 唱 洁 合作 ， 基 于 布朗 语料库 〈Brown 
corpus) 的 证 据 ， 考 察 科 技 英 语 的 篇 际 词 汇 增长 模型 ， 以 篇 章 为 计量 单 
位 ， 描 述 科技 英语 文本 中 词汇 量 与 累积 文本 容量 之 间 的 函数 关系 。 我 们 
注意 到 ， 国 外 现 有 的 词汇 增长 模型 不 能 够 精确 地 摘 述 科技 英语 的 词汇 增 
长 曲线 ， 因 此 ， 我 们 通过 对 需 函 数 和 对 数 函 数 的 比较 分 析 ， 构 建 了 新 的 
词汇 增长 模型 ， 并 应 用 此 模型 推导 出 科技 英语 的 理论 词汇 增长 曲线 及 其 
959659 [8] Ei fci X [R] « 











在 术语 研究 中 ， 我 还 提出 了 “潜在 歧义 论 ”(Potential Ambiguity 
Theory， 人 简称 PA 论 ) ， 指 出 了 中 文 术语 的 卜 义 格式 中 ， 包 含 着 卜 义 性 的 
一 面 ， 也 包含 着 非 上 收 义 性 的 一 面 ， 因 而 这 样 的 歧义 格式 是 潜在 的 ， 它 只 
是 具有 歧义 的 可 能 性 ， 而 并 非 现 实 的 歧义 ， 潜 在 的 歧义 能 否 专 转化 成 现 
实 的 皮 义 ， 要 通过 潜在 卜 义 结构 的 “实例 化 ”(instantiation〉 过 程 来 实 
现 , “实例 化 ”之 后 ， 有 的 卜 义 结构 会 变 成 真正 的 皮 义 结构 ， 有 的 卜 义 结 
构 则 不 然 。 这 一 理论 是 对 传统 语言 学 中 “类 型 一 实例 ”(type-token〉 观念 
的 冲击 ， 深 化 了 对 于 卜 义 格式 本 质 的 认识 ， 近 年 来 ， 我 又 把 PA 论 进 一 
步 推广 到 日 党 语言 的 领域 ,促进 了 上 自然 语言 处 理 中 的 歧义 消解 的 研究 。 











术语 是 记录 科学 技术 知识 的 基本 单元 ， 因 此 ， 术 语 的 研究 对 于 人 类 
知识 的 系统 处 理 ， 对 于 科学 技术 交流 都 有 着 重要 的 价值 。1987 年 ， 我 把 
这 些 研 究 术 语 的 成 果 写 成 《现代 术语 学 引 论 》 一 书 出 版 了 ， 这 是 我 国 第 
一 本 关于 术语 学 理论 的 专著 。 





7. 用 德语 讲授 中 国语 言 文学 诛 程 





1990 年 至 1993 年 ， 我 被 德国 特 里 尔 大 学 文学 院 聘 任 为 客座 教授 。 特 
里 尔 是 一 座 有 2 000 年 历史 的 古城 ， 又 是 马克 思 的 故乡 ， 我 有 机 会 经 常 
到 蕊 克 思 的 故居 了 解 这 位 无 产 阶级 革命 导师 的 光辉 业绩 。 








在 特 里 尔 大 学 文学 院 任教 期 间 ， 我 用 德语 给 德国 学 生 讲授 《 汉 魏 六 
隅 散文 》、《 唐 诗 宋词 》、《 中 国 现代 散文 》、《 汉 字 的 发 展 与 结 
构 》、《 汉 语 拼 首 正 词法 》、《 汉 语词 汇 史 》、《 机 器 翻译 的 理论 和 方 
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我 学 过 德语 ， 有 一 定 的 德语 口语 交流 经 验 ， 可 是 ， 用 德语 在 高 等 学 
校 的 读 蔡 上 讲 读 ， 与 日 冲 生 活 中 用 德语 口语 交流 大 不 一 样 ， 课 等 是 学 术 
的 殿 半 ， 诬 堂上 的 语言 不 能 有 很 多 差错 ， 特 别 是 不 能 在 语法 上 出 错 ， 而 
德语 语法 十 分 复杂 ， 需 要 我 严肃 对 待 。 为 了 讲 好 课 ， 我 百 练 德语 口语 ， 
认真 用 德语 备 好 每 一 节 读 ， 在 上 每 一 节 读 之 前 ， 我 都 要 先 用 德语 把 讲 谍 
的 内 容 目 己 对 目 己 拆 述 一 吉 或 多 壳 ， 直 到 能 够 熟练 地 背诵 为 止 ， 我 
把 “ 备 读 ” 当 作 了 “ 背 读 ”。 由 于 备课 特别 认真 ， 我 的 诗 符 教学 效 末 越 来 越 
好 ， 我 的 讲课 受到 德国 学 生 们 的 一 致 好 评 。 当 时 我 的 一 些 德 国学 生 现 在 
己 经 成 为 德国 知名 的 语言 学 家 了 。 











在 教学 中 ， 我 有 发 现 德国 学 生 学 习 汉 语 时 ， 学 讲话 并 不 困难 ， 最 困难 
的 是 学 汉字 。 汉 字数 量 多 ， 结 构 复 杂 ， 因 此 ， 我 开始 研究 如 何 教 德国 学 
生 学 习 汉字 的 问题 。 





我 经 过 反复 的 思考 ， 把 自己 在 法 国 留学 时 提出 的 MMT 模 型 运用 到 
汉字 结构 的 教学 中 ， 提 出 了 汉字 结构 的 括号 式 表 示 法 ， 用 这 种 方法 可 以 


把 一 个 汉字 按 层 次 分 解 为 右 干 个 部 件 ， 构 成 一 个 树 形 结 构 ， 再 把 这 样 的 
树 形 结构 用 括号 表示 出 来 。 学 生 只 要 掌握 了 基本 的 汉字 部 件 ， 惑 可 以 进 
一 步 学 会 由 这 些 部 件 构成 的 整个 汉字 ， 以 简 驭 繁 ， 使 汉字 便于 理解 和 记 
忆 。 这 样 的 方法 受到 德国 学 生 的 欢迎 。 








我 把 这 样 的 研究 结果 写成 了 《汉字 的 历史 和 现状 》 一 书 用 德 文 在 特 
里 尔 科 学 出 版 社 出 版 。 德 国 特 里 尔 大 学 韦 人 三 雅 《Dorothea Wippermann ) 
博士 1996 年 在 《 评 冯 志 伟 新 著 〈 汉 字 的 历史 和 现状 〉 〈 德 文 版 ) 》 一 文 
中 指出 ， 冯 志 伟 “在 汉字 研究 中 引入 了 现代 的 成 分 分 析 法 。 对 于 这 种 方 
法 ， 直 到 现在 为 止 ， 许 多 在 专家 圈子 之 外 的 普通 人 还 很 不 熟悉 ， 所 知 极 
少 。 这 种 分 析 法 认为 ， 汉 字 是 由 不 同 的 图 形成 分 组 合 而 成 的 一 个 封闭 的 
集合 ， 其 中 的 每 一 个 较 大 的 成 分 都 可 以 进一步 被 拆 分 为 较 小 的 成 分 ， 一 
直 被 拆 分 到 单独 的 笔画 为 止 。 汉 字 结 构 的 这 种 多 层次 的 多 分 又 的 构造 图 
形 可 以 用 树 形 图 来 表示 ， 这 样 一 来 ， 便 为 揭示 汉字 总 体 结构 的 研究 提供 
了 一 种 系统 性 的 理论 和 方法 。 这 种 在 中 文 信息 处 理 中 行 之 有 效 的 成 分 分 
析 法 ， 对 于 汉字 的 研究 和 学 习 ， 也 提供 了 一 种 新 的 记忆 手段 ”。 














汉字 的 计算 机 处 理 一 直 是 我 关注 的 一 个 重要 的 应 用 问题 。 近 年 来 ， 
我 与 旅居 加 拿 大 的 青年 学 者 欧阳 贵 林 合 作 ， 把 汉字 的 基本 字 根 归纳 为 25 
个 ， 我 们 在 这 25 个 字 根 基础 上 提出 的 “机 写 汉字 学 习 法 ”( 简 称 “ 和 
码 ”) ， 这 是 一 种 以 简 驭 繁 的 汉字 学 习 的 方法 。 我 们 在 加 拿 大 和 九江 的 
儿童 识字 教学 中 进行 试验 ， 效 果 民 好 。 








目前 ， 汉 字 输 入 计算 机 主要 使 用 拼音 输入 ， 拼 音 和 输入 是 一 种 简捷 而 
方便 的 输入 法 ， 为 群众 喜闻乐见 。 但 是 ， 由 于 拼音 与 汉字 的 字形 之 间 没 
有 明确 关系 ， 长 期 使 用 拼音 输入 ， 往 往 会 筷 记 汉字 的 字形 ， 写 字 时 出 
现 “ 提 笔 未 字 ?” 的 情况 ， 有 人 把 这 种 情况 叫做 “汉字 失 写 症 ?。 我 认为 ， 除 
了 继续 使 用 和 推广 拼音 输入 法 之 外 ， 我 们 还 需要 在 计算 机 上 根据 汉字 的 


结构 使 用 键盘 来 书写 汉字 ， 从 而 避免 “汉字 失 写 症 *"， 继 承 汉字 的 文化 传 
统 。“ 机 写 汉 字 学 习 法 ”使 用 键盘 来 书写 汉字 ， 有 助 于 死 服 由 于 长 期 使 用 
拼音 输入 汉字 而 导致 的 "汉字 失 写 症 ? 这 种 文化 病 。 





我 们 还 开发 出 针对 外 国学 生 学 习 汉 字 的 相关 的 软件 ， 在 北京 语言 大 
学 的 部 分 外 国学 生 中 进行 过 初步 的 试验 ， 效 果 恨 好 , “机 写 汉 字 学 习 
法 ”软件 让 外 国学 生 在 学 习 “ 听 说 ”汉语 的 同时 ， 也 能 够 “ 读 写 ?汉语 ， 达 
到 “ 听 说 读 写 ?四 会 的 要 求 。 


“机 写 汉 字 学 习 法 ?为 汉字 的 键盘 “机 写 ? 提 供 了 一 种 方便 而 适用 的 手 
段 ， 使 我 们 在 计算 机 上 输入 汉字 的 时 候 ， 永 远 也 不 会 忘记 怎样 书写 汉 
字 。 这 对 于 发 扬 我 国 汉字 文化 的 优秀 传统 是 大 有 好 处 的 。 











8. 用 英语 讲授 目 然 语 言 处 理 读 程 


2001 年 ， 我 应 邀 到 韩国 科学 技术 院 (Korean Advanced Institute of 
Science and Technology， 简 称 KAIST〉 电 子 工 程 与 计算 机 科学 系 担任 教 
授 。KAIST 是 韩国 音 名 的 理工 科大 学 ， 大 部 分 学 生 都 是 通过 严格 的 考试 
和 数学 物理 竞赛 选 出 来 的 精英 。 我 不 会 恕 国 语 ， 因 此， 只 能 用 英语 给 该 
系 博 士 研 究 生 开设 “自然 语言 处 理 -II[”(Natural Language Processing-II, 
简称 NLP-II) 的 课程 。 在 这 门 课 程 中 ， 我 系统 地 讲授 了 词汇 自动 分 析 、 
形态 自动 分 析 、 句 法 自动 分 析 、 语 义 自 动 分 析 、 语 用 自动 分 析 等 自然 语 
言 处 理 中 的 各 种 方法 ， 受 到 韩国 学 生 的 欢迎 ， 震 国 科 学 技术 院 还 特别 出 
版 了 文集 来 纪念 我 的 这 次 讲学 局 。 








x 
在 用 英语 备课 的 过 程 中 ， 我 发 现 美国 Colorado 大 学 的 Daniel Jurafsky 


和 James MartinB'] #144 Speech and Language Processing — An Introduction 
to Natural Language Processing, Computational Linguistics, and Speech 
Recognition 〈《 语 音 和 语言 处 理 一 一 自然 语言 处 理 、 计 算 语 言 学 和 语音 
识别 导论 》) 是 一 本 很 优秀 的 自然 语言 处 理 的 教材 ， 这 本 教材 履 盖 面 非 
第 广 泛 ， 理 论 分 析 十 分 深入 ， 而 且 强 调 实用 性 和 注重 评测 技术 ， 几 乎 所 
有 的 例子 都 来 自 真 实 的 语料库 。 我 想 ， 如 果 能 够 把 这 本 优秀 的 教材 翻译 
成 中 文 ， 让 国内 的 年 轻 学 子 们 也 能 学 习 本 书 ， 那 该 是 多 么 好 的 事情 ! 

















2002 年 ， 我 回国 参加 机 需 翻 译 的 学 术 讨论 会 ， 电 子 工 业 出 版 社 的 一 
位 编辑 找到 我 ， 说 他 们 打算 翻译 出 版 此 书 。 这 位 编辑 说 ， 电 子 工业 出 版 
社 已 经 进行 过 调查 ， 目 前 国外 绝 大 多 数 大 学 的 计算 机 科学 系 都 采用 此 书 
作为 “ 目 然 语 言 处 理 ” 诬 程 的 研究 生 教 材 ， 他 们 希望 我 杀 上 自 来 翻译 这 本 
书 ， 与 电子 工业 出 版 社 配合 ， 推 出 高 质量 的 中 文 诺 本 。 电 子 工业 出 版 社 
的 意见 与 我 原来 的 想法 不 谋 而 合 ， 于 是 ， 我 欣然 接受 了 这 本 长 达 600 多 
页 的 英文 专著 的 翻译 任务 ， 于 2003 年 开始 进行 翻译 。 














我 虽然 已 经 通读 过 这 本 书 两 遇 ， 对 于 这 本 书 应 该 说 是 有 一 定 的 理解 
了 ， 但 是 ， 杀 自动 手 翻译 起 来 ， 却 不 像 原来 想象 的 那样 容易 ， 要 把 英文 
的 意思 表达 为 确切 的 中 文 ， 下 起 笔 来 ， 总 有 汲 深 绠 短 之 感 ， 大 量 的 新 术 
语 如 何 用 中 文 来 表达 ， 也 是 鼎 费 周折 和 令 人 路 践 的 难题 。 





在 玮 国教 书 期 间 ， 我 利用 了 全 部 的 业余 时 间 来 进行 翻译 ， 晚 上 加 班 
到 深夜 ， 连 续 工 作 了 11 个 月 ， 当 翻译 完 14 音 《全书 的 三 分 之 二 ) 的 时 
候 ， 不 笠 患 了 黄斑 前 膜 的 眼病 ， 视 力 出 现 障碍 ， 难 于 继续 翻译 工作 ， 还 
剩 下 7 草 《〈 全 书 的 三 分 之 一 ) 没有 翻译 , “ 行 百 里 者 半 九 十 ?， 这 7 章 的 翻 
译 工 作 完 竟 如 何 来 完成 呢 ? 正当 我 束手无策 、 一 筹 页 展 的 时 候 ， 中 国 科 
学 院 软 件 研究 所 的 一 位 年 轻 的 副 研 究 员 孙 乐 表示 愿意 继续 我 的 工作 ， 协 
助 我 完成 本 书 的 翻译 。 孙 乐 把 剩 下 的 7 章 逐 一 翻译 成 中 文 ， 通 过 计算 机 























网 络 一 章 一 草地 传 到 恕 国 ， 我 使 用 语音 合成 装置 ， 让 计算 机 把 书面 的 文 
本 读 出 来 ， 通 过 读 出 来 的 语音 进行 诺 文 的 校正 ， 语 音 合成 技术 死 服 了 我 
视力 不 济 的 困扰 ， 帮 助 我 迈 过 了 重重 的 难关 。2004 年 ， 在 我 们 两 人 的 通 
力 合作 下 ， 全 书 的 翻译 总 算 大 功 告 成 了 ， 由 电子 工业 出 版 社 以 《 目 然 语 
言 处 理 综 论 》 的 书 名 出 版 。 








这 本 书 的 出 版 受到 广大 读者 的 欢迎 ， 而 我 为 此 却 损 害 了 自己 的 视 
力 ， 不 得 不 借助 于 语音 合成 狼 置 来 阅读 了 。 











现在 我 已 经 进入 古稀 之 年 ， 不 能 再 做 很 多 有 具体 的 开发 和 研究 工作 
了 ， 我 的 视力 不 济 ， 难 于 长 时 间 看 书 ， 所 以 ， 我 近来 主要 做 一 些 介绍 和 
引进 外 国 优秀 计算 语言 学 英文 原著 的 工作 ， 为 这 些 著作 写 导 读 ， 以 便 帮 
助 年 轻 学 子 尽 快 地 接触 到 当代 计算 语言 学 的 前 沿 问 题 。 我 写 的 导读 有 : 
《应 用 语言 学 中 的 语料库 》 【世界 图 书 出 版 公司 & 剑 桥 大 学 出 版 社 ， 
2006 年 版 ，《 译 者 的 电子 工具 》“【〔 外 语 教 学 与 研究 出 版 社 ，2006 年 
版 ) ，《 人 工 智 能 在 第 二 语言 教学 中 的 应 用 》 《世界 图 书 出 版 公司 ， 
2007 年 版 ) ，《 语 言 学 中 的 数学 方法 》 “世界 图 书 出 版 公司 ，2009 年 
版 ) ，《 和 牛津 计 算 语 言 学 手册 》 (外语 教学 与 研究 出 版 社 ，2009 年 
版 ) ，《 自 然 语 言 生 成 系统 的 建造 》 《北京 大 学 出 版 社 ，2010 年 版 ) 。 














9. TIE TES YE Ft 


2006 年 6 月 30 日 ， 联 合 国教 科 文 组 织 奥地利 委员 会 Austrian 
Commission for UNESCO) 、 维 也 纳 市 〈City of Vienna) 和 国际 术语 信 
Arpa CINFOTERM ) 给 我 颁发 了 维 斯 特 奖 〈WiisterSpecial Prize) , 
表彰 我 在 术语 学 理论 和 术语 学 方法 研究 方面 做 出 的 突出 贡献 。 维 斯 特 


(EugenWüster, 1898—1977) 是 奥地利 著名 科学 家 ， 是 术语 学 和 术语 
标准 化 工作 的 莫 基 人 。 维 斯 特 奖 是 专门 为 那些 对 于 术语 学 和 术语 标准 化 
工作 有 出 色 成 就 的 科学 家 而 设置 的 。 





可 惜 的 是 ， 我 的 视力 越 来 越 赤 ， 当 我 接受 维 斯 特 奖 的 时 候 ， 已 经 看 
不 清 奖章 上 面 的 图 采 了 。 





我 从 事 语 言 学 研究 已 经 50 多 年 了 ， 在 这 50 年 中 ， 我 始 而 弃 理学 文 ， 
继而 弃 文 从 理 ， 后 来 义 弃 理 从 文 ， 最 后 还 是 回 到 了 语言 学 的 队伍 ， 看 来 
我 与 语言 学 之 间 ， 确 实 有 着 割舍 不 断 的 缘分 。 








1957 年 我 第 一 次 阅读 乔 姆 斯 基 的 文章 的 时 候 ， 还 是 一 个 不 诺 世 事 的 
19 少 的 青年 ， 弄 姆 斯 基 还 是 一 个 不 满 30 尹 的 年 轻 学 者 ， 现 在 ， 我 已 经 是 
特 发 苑 苑 的 古稀 老人 了 ， 而 乔 姆 斯 基 已 经 82 妈 了 。2010 年 8 月 ， 乔 姆 斯 
基 应 邀 访问 北京 ， 我 和 他 见 了 面 ， 我 们 这 两 个 老人 一 起 合影 留念 。 


我 在 乔 姆 斯 基 的 影响 下 步 入 语言 学 的 殿 和 健 ， 曲 曲折 折 地 走 了 50 年 ， 
可 以 说 乔 姆 斯 基 是 我 学 习 语 言 学 的 局 壹 老师 。 我 把 我 们 合影 的 照片 复制 
在 这 里 ， 作 为 永远 的 纪念 。 





乔 姆 斯 基 与 冯 志 伟 合影 留念 (2010 年 8 月 14 日 ) 


语言 学 是 一 门 历史 您 入 、 博 大 精深 的 学 问 ，50 多 年 来 ， 我 主要 是 在 
数理 语言 学 和 计算 语言 学 领域 中 研究 和 学 习 。 尽 管 我 现在 已 经 年 逾 百 
稀 ， 并 且 一 天 天 地 变 老 ， 但 是 ， 我 50 年 来 一 直 如 痢 如 醇 地 钟爱 着 的 数理 
语言 学 和 计算 语言 学 还 是 一 门 新 兴 的 学 科 ， 她 还 非常 年 轻 ， 还 不 够 成 
熟 ， 但 是 无 疑 有 着 光 辉 的 前 景 。 我 们 个 人 的 生命 是 有 限 的 ， 而 科学 知识 
的 探讨 和 研究 却 是 无 限 的。 我 们 个 人 渺小 的 生命 与 科学 事业 这 棵 和 常 青 的 
参天 大 树 相 比较 ， 显 得 多 么 地 微不足道 ! 想到 这 些 ， 怎 不 令 我 们 感慨 万 
T 


RUARI, FAROESE”, RIMAS LIE, EA 
人 的 有 限 的 生命 投入 到 无 限 的 科学 知识 的 探讨 和 研究 中 去 ， 从 而 实现 人 
生 的 价值 。 





(本 文 原 载 《当代 外 语 研 究 》，2011 年 第 1 期 ) 
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